Образовательный форум по искусственному интеллекту, математике и физике 2024




Задача 3:



Мультимодальная модель склонности к покупке продуктов




Задача предоставлена ПАО "Сбербанк"

Описание задачи

Участникам предлагается на основе мультимодальных данных разработать модель, для каждого из 4 продуктов предсказывающую вероятность его покупки клиентом (multilabel).

На вход модели подаются данные, описывающие клиента. Данные должны быть доступны и актуальны на дату прогноза. На выходе ожидается 4 числа - вероятности приобрести каждый из 4 продуктов (количество продуктов, приобретаемых клиентом, может быть любым от 0 до 4 - вероятности не обязаны в сумме давать 100%).
Описание данных
Обезличенные данные для обучения представлены в трех модальностях: транзакционная активность (transactions), эмбеддинги диалогов (dialogs), гео-активность (geostream), а также факты совершения покупок (targets) продуктов по части клиентов Банка за 12 месяцев. Датасеты доступны по ссылке

Для оценки модели необходимо для каждого пользователя из тестовой выборки сделать предсказание покупки каждого из продуктов в новом отчетном месяце (2023-31-01).
В данном случае геохеш представлен 3 уровнями, определяемыми целочисленными значениями и соответствующие региону определенного размера. Уровни имеют вложенную иерархичную структуру: 4 уровень соответствует наибольшей области (наименьшая точность), 6 – наименьшей области (наибольшая точность).
УСЛОВНО: точки с одинаковым значением geohash_4 попадают в один город, точки в одном городе с одинаковым значением geohash_5 попадают в один район, точки в одном районе с одинаковым значением geohash_6 попадают в один двор.
В соответствии с ФЗ 152 "О персональных данных" от 27.07.2006 все данные были анонимизированы и деперсонализированы.
Критерии оценки решений
1. В качестве основной количественной метрики решений используется gini (2*roc_auc_score – 1) для 4 целевых переменных (macro average).
Также при определении победителей будут учитываться качественные показатели решений:
2. Ход решения: методология проверки различных гипотез, обоснованность и корректность использования подходов, креативность.
3. Использование SOTA подходов. Ввиду того, что данные для обучения представляют собой временные последовательности событий, эффективным может оказаться использование современных нейросетевых подходов для их обработки (RNN, PyTorch Livestream, Transformers и т.д.). В то же время, при одинаковой количественной метрике выше будет оценено решение с более лаконичной архитектурой.
4. Качество оформления кода решения: читаемость, воспроизводимость, масштабируемость.
Требования к решению и оформлению
1. Для оценки количественной метрики решения необходимо загружать на платформу Yandex Contest LINK TBD (пример сабмита submit_example.csv)
2. Код решений в формате Jupyter Notebook необходимо загрузить в репозиторий (например git), либо предоставить ссылки на открытые ноутбуки Google Colab/Kaggle. В решении должны быть приведены используемые библиотеки (requirements / ячейка с !pip install / .py файлы в случае использования неопубликованных библиотек). Ноутбук с решением должен быть воспроизводимым.
3. Решение должно сопровождаться краткой презентацией (10-15 минут) с описанием хода и результатом решения.
Контакты с организатором хакатона
Ссылка на Telegram для информации и вопросов:
https://t.me/+7zpwTh5i-Z04ZmRi

Здесь будем выкладывать данные, отвечать на вопросы.

Место проведения: Физтех.Цифра, поточная аудитория 4.18
Организации-партнеры хакатонов