ОписаниеДанное направление посвящено исследованию фундаментальных, универсальных агентов обучения с подкреплением (RL) — алгоритмов и архитектур, объединяющих различные подходы RL на основе биологически вдохновлённых принципов. Современные методы RL во многом фрагментированы (model-based, meta-, safe, hierarchical RL и др.), тогда как наша цель — создать общую основу, позволяющую агентам масштабироваться, адаптироваться и демонстрировать объяснимое поведение в широком спектре сред.
В отличие от традиционных систем RL, такие агенты способны формировать собственную внутреннюю динамику — развивая модули памяти, активного восприятия и обучаемые механизмы внутренней модуляции, что делает их более адаптивными и обобщающими по аналогии с биологическими организмами. Проект сочетает архитектурные инновации с теоретическим исследованием, объединяя вычислительные идеи из нейронауки и современные методы глубокого обучения с подкреплением.
Примеры тем и проектов- Модульные рекуррентные архитектуры: построение многоколоночных RNN с межколоночным вниманием для долговременного и мультимодального обучения, а также для спонтанной специализации между сенсорными и когнитивными подсистемами. Эти архитектуры служат основной экспериментальной платформой направления — универсальным каркасом, способным объединять другие механизмы, такие как активное восприятие или внутренние сигналы-модуляторы.
- Активное зрение: разработка агентов, которые сами решают, куда смотреть и когда действовать, превращая задачу восприятия изображений в процесс взаимодействия и принятия решений.
- Агенты с условными сигналами (cue-conditioned): замена вручную спроектированных внутренних вознаграждений на обучаемую систему сигналов, управляющих исследовательским поведением, безопасностью или любопытством.
Участники проектов будут заниматься реализацией и анализом новых архитектур агентов, разработкой компактных тестовых сред и исследованием возникающих явлений — таких как специализация, память и адаптивное исследование. Работа объединяет элементы теории RL, биологически вдохновлённого моделирования и инженерного проектирования алгоритмов.