Исследования | Обучение с подкреплением

Обучение с подкреплением

Обучение с подкреплением является одной из наиболее естественных постановок задачи приобретения знаний при взаимодействии агента со средой, однако есть много проблем, связанных с эффективностью и применением в робототехнике. Обычно современным планировщикам задают наборы действий заранее на символьном уровне (виде специальных правил), но для настоящего робота, который может попасть в совершенно новую ситуацию, такой подход плохо работает. Он должен вспомнить свой прошлый опыт в похожих ситуациях и составить новый план из новых действий, которые ему никто не подсказывал.

Иерархическое обучение с подкреплением

Александр Панов

В данном направлении мы развиваем как новые методы и алгоритмы, так и решаем новые прикладные задачи, в том числе с робототехническими манипуляторами. Также мы активно участвуем в соревнованиях. Например, в конце 2019г. наша команда стала победителем международного соревнования NeurIPS MineRL, показав лучшее решение в направлении эффективных методов обучения с подкреплением на основе демонстраций.

Страницы завершенных проектов на данном направлении:

ForgER: обучение с подкреплением на демонстрациях с забыванием - https://sites.google.com/view/forgetful-experience-replay/home
Обучение с подкреплением для исследования среды в задаче навигации - https://cog-isa.github.io/rl_navigation/
DSN: обучение с подкреплением на базе дискретной модели - https://cog-isa.github.io/schema-rl/
Обучение с подкреплением для беспилотного автомобиля на перекрестке - https://martinsonmichael.github.io/CarRacing_agents/

Соревнование NeurIPS MineRL 2019

Алексей Скрынник рассказывает про решение, занявшее первое место

Abhishek Kadian, Joanne Truong, Gokaslan, A., Clegg, A., Wijmans, E., Lee, S., Savva, M..: Are We Making Real Progress in Simulated Environments? Measuring the Sim2Real Gap in Embodied Visual Navigation, arXiv:1912.06321
Nair S., Finn C. Hierarchical foresight: self-supervised learning of long-horizon tasks via visual subgoal generation // ICLR 2020. 2020. Ссылка
Staroverov A., Panov A.I. Hierarchical Actor-Critic with Hindsight for Mobile Robot with Continuous State Space // Advances in Neural Computation, Machine Learning, and Cognitive Research III. Studies in Computational Intelligence / ed. Kryzhanovsky B. et al. Springer, 2020. Vol. 856. P. 62–70. Springer
Aksenov K., Panov A. Approximation Methods for Monte Carlo Tree Search // Proceedings of the Fourth International Scientific Conference “Intelligent Information Technologies for Industry” (IITI’19). IITI’19 2019. Advances in Intelligent Systems and Computing / ed. Kovalev S. et al. Springer International Publishing, 2020. Vol. 1156. P. 68–74. Springer
Gorodetskiy A., Shlychkova A., Panov A.I. Delta Schema Network in Model-based Reinforcement Learning // Artificial General Intelligence. AGI 2020. Lecture Notes in Computer Science / ed. Goertzel B. et al. Springer, 2020. Vol. 12177. P. 172–182. Springer
Younes A., Panov A.I. Toward Faster Reinforcement Learning for Robotics : Using Gaussian Processes // RAAI Summer School 2019. Lecture Notes in Computer Science / ed. Osipov G.S., Panov A.I., Yakovlev K.S. Springer, 2019. Vol. 11866. P. 160–174. Springer
Skrynnik A. et al. Hierarchical Deep Q-Network from Imperfect Demonstrations in Minecraft // NeurIPS 2019 Competition Track. 2019. P. 1–5. ArXiv
Kuzmin V., Panov A.I. Hierarchical Reinforcement Learning with Options and United Neural Network Approximation // Proceedings of the Third International Scientific Conference “Intelligent Information Technologies for Industry” (IITI’18). IITI’18 2018. Advances in Intelligent Systems and Computing / ed. Abraham A. et al. Springer, 2019. Vol. 874. P. 453–462. Springer
Skrynnik A., Panov A.I. Hierarchical Reinforcement Learning with Clustering Abstract Machines // Artificial Intelligence. RCAI 2019. Communications in Computer and Information Science / ed. Kuznetsov S.O., Panov A.I. Springer, 2019. Vol. 1093. P. 30–43. Springer

Статья

Abhishek Kadian, Joanne Truong, Gokaslan, A., Clegg, A., Wijmans, E., Lee, S., Savva, M..: Are We Making Real Progress in Simulated Environments? Measuring the Sim2Real Gap in Embodied Visual Navigation,

Смотреть