Описание
Классические агенты обучения с подкреплением демонстрируют высокие результаты в тех же средах, где обучались. Но стоит слегка изменить визуальные параметры (освещённость, текстуры, ракурс камеры) или перенести задачу в другой, хоть и эквивалентный по динамике, контекст – и качество резко падает. Это проявляется в out-of-distribution (OOD) валидации внутри сред, в sim-to-real сценариях, а также в случаях, когда робот, натренированный, например, при одной освещенности, теряется при работе с другой освещенностью.
В рамках проекта мы разрабатываем и исследуем архитектуры робастных агентов обучения с подкреплением, способных решать различные OOD задачи.