Автономное обучение с подкреплением
Сбор данных в процессе обучения для современных задач в области обучения с подкреплением является дорогой и трудоемкой процедурой. С другой стороны для очень многих прикладных примеров уже имеются большое количество логов поведения эффективных агентов. В автономном обучении с подкреплением предлагается эффективно использовать эти данные и бороться с проблемой смещения распределений.
POGEMA: Partially Observable Grid Environment for Multiple Agents – Contributed talk – PRL@ICAPS 2022