Обучение с подкреплением

Обучение с подкреплением является одной из наиболее естественных постановок задачи приобретения знаний при взаимодействии агента со средой, однако есть много проблем, связанных с эффективностью и применением в робототехнике. Обычно современным планировщикам задают наборы действий заранее на символьном уровне (виде специальных правил), но для настоящего робота, который может попасть в совершенно новую ситуацию, такой подход плохо работает. Он должен вспомнить свой прошлый опыт в похожих ситуациях и составить новый план из новых действий, которые ему никто не подсказывал.

Иерархическое обучение с подкреплением
Александр Панов
В данном направлении мы развиваем как новые методы и алгоритмы, так и решаем новые прикладные задачи, в том числе с робототехническими манипуляторами. Также мы активно участвуем в соревнованиях. Например, в конце 2019г. наша команда стала победителем международного соревнования NeurIPS MineRL, показав лучшее решение в направлении эффективных методов обучения с подкреплением на основе демонстраций.

Страницы завершенных проектов на данном направлении:
Соревнование NeurIPS MineRL 2019
Алексей Скрынник рассказывает про решение, занявшее первое место
  • Abhishek Kadian, Joanne Truong, Gokaslan, A., Clegg, A., Wijmans, E., Lee, S., Savva, M..: Are We Making Real Progress in Simulated Environments? Measuring the Sim2Real Gap in Embodied Visual Navigation,