Обучение с подкреплением является одной из наиболее естественных постановок задачи приобретения знаний при взаимодействии агента со средой, однако есть много проблем, связанных с эффективностью и применением в робототехнике. Обычно современным планировщикам задают наборы действий заранее на символьном уровне (виде специальных правил), но для настоящего робота, который может попасть в совершенно новую ситуацию, такой подход плохо работает. Он должен вспомнить свой прошлый опыт в похожих ситуациях и составить новый план из новых действий, которые ему никто не подсказывал.