Исследования | Применение больших языковых моделей (LLM) в робототехнике

Применение больших языковых моделей (LLM) в робототехнике

Описание
Цель исследования – разработка методов интеграции знаний и рассуждений, присущих большим языковым моделям (LLM), в робототехнические платформы для решения задач воплощённого следования инструкциям, сформулированным на естественном языке.

Особое внимание уделяется сложным, составным, динамичным и кооперативным задачам, требующим постоянного взаимодействия агента со средой и учёта её изменений во времени.

Ключевая идея заключается в использовании графового представления сцены как основы для обобщённого восприятия, семантического поиска, отслеживания состояния мира и заземления агента на объекты, важные для задачи.

Граф сцены служит центральным компонентом, объединяющим восприятие, планирование и память.

Задачи исследования

Формализация задачи воплощённого следования инструкциям, включая определение её границ, категорий сложности и типов взаимодействий (в том числе с другими агентами или пользователями)
Разработка механизма памяти и графового представления сцены, позволяющего эффективно обрабатывать темпоральные, динамические и неоднозначные ситуации в среде
Разработка основного операционного цикла LLM-агента, в котором граф сцены используется для заземления инструкций, декомпозиции задач и обоснования выбора действий
Обеспечение устойчивости системы к вариативности формулировок инструкций, включая реализацию механизмов адаптации, персонализации и обработки обратной связи от пользователя
Разработка критериев и инструментов для оценки способности LLM к рассуждению в воплощённой среде, включая сценарии в симуляции и метрики качества исполнения