Описание
Память – одна из ключевых когнитивных функций человека. Благодаря ей мы фиксируем новые знания, события, ощущения и навыки, превращаем их в личный опыт и при необходимости извлекаем для решения задач и планирования будущих действий.
Классическое обучение с подкреплением в основном ориентировано на полностью наблюдаемые среды (Markov Decision Processes), где воспоминания не требуются: текущее состояние содержит всю нужную информацию. В реальности же робот сталкивается с частичной наблюдаемостью — например, при восприятии сцены с камер от первого лица или при манипуляциях со скрываемыми объектами. Один из эффективных способов компенсировать нехватку информации — внедрение механизмов памяти.
В рамках проекта мы разрабатываем собственные архитектуры агентов с памятью для задач обучения с подкреплением и создаём бенчмарки с частичной наблюдаемостью для их валидации. Это позволяет системно оценивать, как различные типы памяти улучшают устойчивость и качество поведения агента в условиях неполной информации.