Решение индустриальных задач методами обучения с подкреплением
Описание
Исследование и разработка решений с применением RL для практических задач управления, таких как управление запасами и транспортными потоками.

Обучение с подкреплением (RL) — перспективный подход к решению индустриальных задач с высокой размерностью, сложными ограничениями и необходимостью принятия последовательных решений. В отличие от классических подходов, RL способен обучать стратегию напрямую, без явного моделирования скрытых распределений, и оптимизировать сразу несколько метрик. RL позволяет формулировать задачи в более удобной и естественной для бизнеса форме, а решения на его основе — делать более адаптивными и эффективными.

Мы исследуем масштабируемые архитектуры, способные управлять тысячами объектов (например, товаров или светофоров), в том числе в условиях отсутствия исторических данных — за счёт использования общих моделей агентов с адаптивным поведением и механизмами коммуникации.

В качестве типовых задач рассматриваются, например:
  • управление запасами в сети магазинов, где необходимо согласованно решать, что, когда и откуда заказывать — от внешнего поставщика, со склада, из соседнего магазина или даже у конкурента — учитывая будущий спрос, задержки и стоимость поставок;
  • управление светофорами в городе, где целью является адаптивная оптимизация трафика с учётом реального потока машин и общей согласованности между перекрёстками.
В рамках проекта вы будете решать реальные задачи с открытыми научными вопросами: адаптивность, объяснимость, безопасность, холодный старт и многое другое. Работа включает разработку симуляторов, адаптацию RL-бейзлайнов и исследование новых архитектур под конкретные задачи. В качестве вишенки на торте — все прелести и нюансы реального мира, которых часто нет в игрушечных RL-средах и задачах. Проекты ведутся совместно с индустриальными партнёрами.