Даны три датасета - очищенные корпуса текстов на разговорные темы на английском языке. Каждый из них содержит чуть больше 500 реплик из корпуса Topical-Chat. Первый и второй датасеты - тренировочные (при этом из них размечен только первый), третий - валидационный. Третий датасет будет доступен в 10 часов дня 15 апреля. По нему мы будем проводить оценку.
Ваша цель – научиться определять темы реплик на протяжении диалога.
Дополнительная задача: предложить алгоритм определения момента, когда бот теряет пользователя внутри заданной темы в процессе диалога. Для неё будет предоставлен дополнительный датасет из диалогов между ботом и пользователями в рамках соревнования Alexa Prize 3. За дополнительную задачу будут ставиться отдельные баллы.