Автономное обучение с подкреплением
Сбор данных в процессе обучения для современных задач в области обучения с подкреплением является дорогой и трудоемкой процедурой. С другой стороны для очень многих прикладных примеров уже имеются большое количество логов поведения эффективных агентов. В автономном обучении с подкреплением предлагается эффективно использовать эти данные и бороться с проблемой смещения распределений.
POGEMA: Partially Observable Grid Environment for Multiple Agents – Contributed talk – PRL@ICAPS 2022
Необходимые умения
  • Сильная математическая подготовка (курсы математической статистики, дискретной математики, теории алгоритмов)
  • Понимание принципов машинного обучения
  • Отличное знание Python
  • Уверенное владение нейросетевыми фреймворками (PyTorch, Tensorflow)
  • Опыт работы с большими нейросетевыми моделями
Завершенные проекты
  • POGEMA - Partially-Observable Grid Environment for Multiple Agents
Публикации
  • Skrynnik A. et al. POGEMA: Partially Observable Grid Environment for Multiple Agents // ICAPS 2022 Planning and Reinforcement Learning workshop. 2022.
  • Zholus A. et al. IGLU Gridworld: Simple and Fast Environment for Embodied Dialog Agents // CVPR 2022 Workshop on Embodied AI. 2022.
Темы исследовательских проектов
  • Автономное обучение с подкреплением для рекомендательных систем
  • Мультиагентное автономное обучение с подкреплением
  • Клонирование поведения в робототехнических задачах (навигация, манипуляция)
  • Трансформерные архитектуры в автономном RL (на примере IGLU и POGEMA)