ХАКАТОН ОБРАЗОВАТЕЛЬНОГО ФОРУМА ПО МАТЕМАТИКЕ И ИСКУССТВЕННОМУ ИНТЕЛЛЕКТУ

Задача 5:
Поиск "токсичных" комментариев в социальной сети Пульс
Задача предложена компанией Тинькофф
Итоги
Победителем трека стала команда Слишком много сил на придумывание названия (Дмитрий Борисов, Павел Егоров, Александра Шевелева, Александр Топтунов из МФТИ, ВШЭ, ЮФУ, ВШЭ)
Место проведения
Московский физико-технический институт, корпус Физтех.Био, ауд. 107
Описание задачи:
Научимся определять тональность комментариев и постов с использованием state-of-the-art подходов для обработки текстов.

Токсичные комментарии являются большой проблемой для онлайн платформ, включая русскоязычные. По данным опросов 73% онлайн пользователей сталкивались с оскорблениями в свой адрес.

Существует множество способов борьбы с оскорблениями и грубыми высказываниями в сети, помогите нам точнее определять токсичные комментарии чтобы сделать общение в социальной сети Пульс еще лучше.

Постановка задачи

Токсичность можно определить как любое грубое, оскорбительное или необоснованное высказывание, которое могло бы вызвать у человека на которого направлено токсичное высказывание желание прекратить диалог.

Пример токсичных высказываний:

  • "Ты просто тупой люмпен,грязь, вышел из нижнего класса, который просто обзывается, показывает свою культуру , и не можешь привести ни одного довода в пользу своего аргумента"
  • "Предлагаю отписаться от этого урода"
Задача 1: Определение токсичных комментариев

Датасет представляет из себя набор комментариев пользователей из социальной сети Пульс c размеченными метками является ли коммент токсичным или нет.

Данные разбиты на обучающую, валидационную и тестовую выборки.
Нужно для тестовой выборки для каждого комментария предсказать, является ли он токсичным.

Метрика: F1 score
Задача 2: Боремся с переобучением в моделях для определения токсичности

Известная проблема с моделями для определения токсичности состоит в наличии переобучения на триггерные слова (пол, названия животных, публичные личности, названия компаний) которые сами по себе не являются токсичными но служат для классификатора триггером для классификации всей реплики как токсичной.

Примеры:

  • Какой-то слабый на гэп чувак? (речь идет об акции)
  • Сейчас бы сквизануть ещё до червонца ..Трамп то наш (имя политика)
  • Реж лосей и отбивай. (инвестиционный сленг)
Дополнительно к датасету из задачи 1, мы собрали список "защищенных сущностей" разбитых на несколько категорий.

Для оценки степени переобучения на триггерные слова предлагается использовать метрику GMB-AUC. (Использовалась на соревновании Jigsaw Unintended Bias in Toxicity Classification)

Метрика: GMB-AUC - взвешенная сумма AUC для бинарной классификации и AUC по 3м подгруппам примеров из датасета:

  1. Подгруппа AUC: Содержит только примеры которые содержат определенную категорию "защищенных сущностей".
  2. Подгруппа BPSN(Background positive, Subgroup negative): Содержит нетоксичные примеры с сущностями и токсичные примеры без сущностей.
  3. Подгруппа BNSP(Background negative, Subgroup positive): Содержит токсичные примеры с сущностью и нетоксичные примеры без сущностей.
AUC для каждой подгруппы считается как генерализованное среднее по всем категориям "защищенных сущностей".

Более подробно про метрику можно почитать в статье или на kaggle.
Предложите метод для снижения переобучения модели классификатора токсичности на триггерные слова.

Русскоязычные датасеты для определения токсичности:
Литература
Nuanced Metrics for Measuring Unintended Bias with Real Data for Text Classification - https://arxiv.org/pdf/1903.04561.pdf
Measuring and Mitigating Unintended Bias in Text Classification - https://dl.acm.org/doi/pdf/10.1145/3278721.3278729
Reducing Unintended Identity Bias in Russian Hate Speech Detection - https://arxiv.org/pdf/2010.11666.pdf
Видео для понимания феномена model bias - https://www.youtube.com/watch?v=59bMh59JQDo

Контакты с организатором хакатона
Группа в Telegram: https://t.me/joinchat/SnnqsLY5mBlkNzUy

Здесь будем выкладывать данные, отвечать на вопросы.
Организация-партнер