ХАКАТОН ОБРАЗОВАТЕЛЬНОГО ФОРУМА ПО МАТЕМАТИКЕ И ИСКУССТВЕННОМУ ИНТЕЛЛЕКТУ

Задача 4:
О викторине "Клевер"
Задача предложена партнером олимпиады – Альянсом в сфере икусственного интеллекта, а именно командами ВКонтакте и Mail.ru Group
Итоги
Победителями трека стали команды:
1 место: Лена Вольф, Матвей Новиков,
2 место: Панов Владимир / Ирхин Артем / Селезнев Василий / Мудрич Анна
Место проведения
Московский физико-технический институт, корпус Физтех.Био, ауд. 107
Описание задачи:
Вы наверняка слышали об онлайн-викторине "Клевер", разработанной командой ВКонтакте вместе с "Творческой лабораторией Ивана Урганта". С 14 марта по 31 декабря 2018 года в специальном мобильном приложении участникам нужно было выбрать правильный ответ на заданный вопрос из трёх предложенных вариантов. Игроки, правильно ответившие на все 12-15 вопросов игрового сеанса, поровну делили разыгрываемый призовой фонд.

Вопросы для игры были подготовлены профессиональными авторами и отобраны редакторами викторины. Но у пользователей Клевера тоже была возможность предлагать свои вопросы и варианты ответов на них.

Вы получите доступ к набору из примерно 40 000 вопросов. Определите, какие примерно 10% из этих вопросов подготовлены экспертами?
Ваши решения будут оцениваться по метрике ROC-AUC. Вы можете подробнее познакомиться с ней в этой статье, или использовать sklearn.metrics.roc_auc_score.

В файле data.csv будет доступен список всех вопросов игры, а в train.csv информация для части вопросов о том, подготовлен ли он профессиональными авторами или предложен участниками игры.

Решением является файл, содержащий в первом столбце идентификаторы вопросов, а во втором - вероятность принадлежности к классу. Сохраняйте порядок идентификаторов вопросов, указанный в файле test.csv.
Ежемесячная аудитория ВКонтакте в 97 млн пользователей просматривает более 9 млрд записей в сутки. Существенная часть созданного пользователями контента — текстовая, а автоматическая классификация контента на основании экспертной разметки позволяет создавать тематические ленты новостей и рекомендовать пользователям ещё более интересный контент. Чтобы узнать больше о работе с текстами и использовании методов машинного обучения в социальной сети, смотрите записи митапов Команды ВКонтакте.
Формат ввода

Ссылки на данные:
Вам предоставлены следующие файлы:
data.csv — все вопросы задания. В каждой строке указан ID вопроса и текст вопроса.
train.csv — данные для обучения. В каждой строке указан ID вопроса и 1, если вопрос подготовлен профессиональными авторами и 0, если вопрос предложен участниками игры.
test.csv — один столбец с идентификаторами тех вопросов, вероятность принадлежности которых к классам вам нужно будет определить.
Формат вывода

Ответ принимается в формате csv. Посмотрите на пример файла решения в архиве с данными. Файл должен состоять из 11088 строк. В каждой строке должно быть два числа — ID очередного вопроса (в том же порядке, что и в файле test.csv) и вероятность принадлежности вопроса к подготовленным профессиональными авторами (от 0 до 1), разделенные запятыми.
Комментарии

Мы рекомендуем готовить решение в используя colab notebook. В данной задаче вам предстоит работать с большим количеством UGC — посмотрите, какие вопросы предложили участники, а какие — редакторы, попробуйте выявить какие-то закономерности. Сохраняйте порядок вопросов при работе над заданием.
Контакты с организатором хакатона
Группа в Telegram: https://t.me/joinchat/p_6URPipigBlMzIy

Здесь будем выкладывать данные, отвечать на вопросы.
Организации-партнеры