Образовательный форум по искусственному интеллекту, математике и физике 2025




Задача 2:



"Тихий убийца"




Задача предоставлена ПАО "Сбербанк"

Описание задачи

Сердечно-сосудистые заболевания – тихий убийца 😶🔪 #1 в мире. Виновник? "Плохой холестерин" или ЛипоПротеины Низкой Плотности (ЛПНП). Они закупоривают сосуды 🫀, провоцируя инфаркты и инсульты. Коварство и опасность такого холестерина в том что он не проявляет себя на ранних стадиях; симптомы появляются, когда болезнь уже запущена.

Давайте создадим неинвазивный метод диагностики через камеру или датчик (как в умных часах)! Это сделает скрининг массовым, дешёвым и доступным – и спасёт миллионы жизней.

Как это работает? Современные гаджеты умеют снимать ФотоПлетизмоГрамму (ФПГ) – график пульсовой волны по отражённому свету. "Плохой холестерин" меняет структуру сосудов и эти изменения влияют на форму пульсовой волны. Ваша задача – научить алгоритм ловить опасные отклонения по таким данным.

Необходимо разработать ML-модель бинарной классификации:
Класс 1 → повышенный ЛПНП (риск!)
Класс 0 → нормальный уровень

Метрика: ROC AUC – важно не пропустить больных (чувствительность), но и не пугать здоровых(специфичность).

Почему это круто?
- Спасёте жизни, сделав диагностику доступной.
- Прокачаете навыки работы с биосигналами и ML.
- Возможность внедрения в реальные устройства (часы, смартфоны).

Готовы бросить вызов "тихому убийце"? Тогда вперёд – к здоровому будущему! ❤️🚀
Описание данных
1. Формат ввода
По ссылке доступен архив с фотоплетизмограммами, файл train.csv с обучающими данными (553 пациента) и файл test.csv – тестовые данные (142 пациента).

Фотоплетизмограммы представлены в виде одномерных массивов, сохраненных в формате *.npy. Длительность каждой фотоплетизмограммы составляет 27 секунд, частота дискретизации – 100 Гц, таким образом длина одного массива – 2700.

Файл train.csv содержит следующие колонки:
●     ID – уникальный идентификатор пациента, которому соответствует файл с фотоплетизмограммой. Например, пациенту с ID "k31__1__1" соответствует файл "k31__1__1.npy";
●     ЛПНП – истинное значение целевой бинарной переменной, где класс 1 – означает повышенный уровень ЛПНП (≥3 ммоль/л), а класс 0 – нормальный уровень ЛПНП (<3 ммоль/л).

Файл test.csv содержит аналогичные колонки, за исключением таргета – ЛПНП.

2. Формат вывода
Результатом решения данной задачи должен быть файл submit.csv с двумя колонками:
●     ID – идентификатор пациента из test.csv.
●     ЛПНП – вероятность принадлежности к классу 1 (повышенный уровень ЛПНП).

Например,
ID,ЛПНП
0007,0.05
0009,0.5513
0013,0.1513
Критерии оценки решений
Решение участников будет оцениваться количественно:

Баллы за посылку с submission_score очками начисляются по следующей формуле:
[ 9 * (submission_score - baseline_score) / (max_score - baseline_score) + 1 ]

где baseline_score – очки за базовое решение, max_score – максимальные очки по всем посылкам всех участников, в течение хакатона эта величина равна 1.0.

Контакты с организатором хакатона
Ссылка на Telegram для информации и вопросов:
https://t.me/+6-pzqb5UH8MxYzg6

Здесь будем выкладывать данные, отвечать на вопросы.

Место проведения: (сообщим позднее)
Организации-партнеры хакатонов