ОписаниеЦель исследования – разработка методов интеграции знаний и рассуждений, присущих большим языковым моделям (LLM), в робототехнические платформы для решения задач воплощённого следования инструкциям, сформулированным на естественном языке.
Особое внимание уделяется сложным, составным, динамичным и кооперативным задачам, требующим постоянного взаимодействия агента со средой и учёта её изменений во времени.
Ключевая идея заключается в использовании графового представления сцены как основы для обобщённого восприятия, семантического поиска, отслеживания состояния мира и заземления агента на объекты, важные для задачи.
Граф сцены служит центральным компонентом, объединяющим восприятие, планирование и память.
Задачи исследования- Формализация задачи воплощённого следования инструкциям, включая определение её границ, категорий сложности и типов взаимодействий (в том числе с другими агентами или пользователями)
- Разработка механизма памяти и графового представления сцены, позволяющего эффективно обрабатывать темпоральные, динамические и неоднозначные ситуации в среде
- Разработка основного операционного цикла LLM-агента, в котором граф сцены используется для заземления инструкций, декомпозиции задач и обоснования выбора действий
- Обеспечение устойчивости системы к вариативности формулировок инструкций, включая реализацию механизмов адаптации, персонализации и обработки обратной связи от пользователя
- Разработка критериев и инструментов для оценки способности LLM к рассуждению в воплощённой среде, включая сценарии в симуляции и метрики качества исполнения