Сбор данных в процессе обучения для современных задач в области обучения с подкреплением является дорогой и трудоемкой процедурой. С другой стороны для очень многих прикладных примеров уже имеются большое количество логов поведения эффективных агентов. В автономном обучении с подкреплением предлагается эффективно использовать эти данные и бороться с проблемой смещения распределений.