В папке final_model(task1) расположена модель бинарной классификации столбца 'Тип обращения итоговый'
Решение подазадачи выполнено в виде класса Solution, обратите внимание, что при создании обьекта в строке
sol = Solution('data/train.csv', 'data/test.csv', 'catboost'), в качестве первого и второго аргумента надо указать актуальные пути до датасетов
Класс решения выполняет предобработку датасета, создание tfidf матрицы для столбца 'Содержание', обучение модели,
составление сабмита и заполнение тествого датасета для дальнейшего предсказания вр.ряда.
Модель написана для предсказаний на тех данных, которыми обладает
специалист на момент выставления текущего статуса,
то есть в тренировочный датасет не входят временные признаки,
а также результат и статус(если бы модель использовала эти признаки,
то f1-macro был бы примерно 0.9-0.95, мы проверяли), остальные признаки были отобраны
различными экспериментами, в ходе которых подтвержадлись гипотезы о низком влиянии
признака на целевую переменную.
В самом файле решения есть комментарии поясняющие каждую функцию
Обратите внимание, что в процессе исполнения файла создастся 4 файла: две модели для экспорта в другие сервисы и файл с сабмишном и заполненым предиктом.
В папке Рекомендательная система для супервайзеров находится Django-проект прототипа рекомендательной системы на базе модели о которой я писал выше, она выдает вероятности классов для обращения супервайзера по признакам 'Содержание','Влияние','Критичность','Приоритет'. Для запуска проекта нужно выполнить команду python manage.py runserver 7000 или посмотреть на работу системы вы можете в яндекс диске скринкаста по ссылке ниже
В папке TimeLine(task3) расположены модели SARIMAX для прогнозирования временного ряда по количеству инцидентов и запросов на март месяц. Построены графики ACF и PACF, которые позволили определить гиперпараметры модели. Далее были спрогнозированы значения с 26.02.2018 до 31.03.2018. Для определения аномалий во временных рядах используется межквартальный диапазон и выводятся предположительные даты всплесков. Однако стоит сказать, что из-за короткого срока для построения модели, точность не будет высокой, особенно на продолжительнйы гоизон прогназирования.
Самый весёлый департамент
Департамент который отвечает
Книжный департамент
Суровый департамент
Подозрительный отдел
ССылка на яндекс диск: https://disk.yandex.ru/d/BqLSV8eeCKlRjg