Курс, озаглавленный "Мультимодальные и поведенческие модели", разработан для того, чтобы предоставить студентам всестороннее понимание последних достижений в области обучения трансформерных моделей для манипуляции и навигации роботов. Учебная программа объединяет базовые знания в области машинного обучения, обучению с подкреплением и робототехнике, опираясь на последние исследования в данной тематике.
Курс начинается с введения в задачи манипуляции и навигации для роботов и методов решения вызовов, связанных с многомерными пространствами действий, мультимодальным состоянием агента и реальными приложениями. Студенты изучат роль трансформеров в моделировании зрения, языка и действий, а также рассмотрят примеры современных систем, таких как RT-2, OpenVLA и Octo. Также будут обсуждаться ограничения трансформеров в решении частично наблюдаемых марковских процессов принятия решений (POMDP).
Одним из главных направлений курса будет обучение с подкреплением (RL) для робототехники. Студенты узнают о марковских процессах принятия решений (MDP) и способах оптимизации стратегии агента.
Также курс погрузится в стратегии офлайн-обучения для манипуляции и навигации роботов. Это включает клонирование поведения (BC) и офлайн обучение с подкреплением (Offline RL).
В заключении, будет рассмотрена интеграция офлайн и онлайн фаз обучения. Студенты изучат иерархические актор-критик фреймворки, такие как алгоритм ArCHer, и техники стабилизации переходов между офлайн и онлайн обучением.
В курсе рассматриваются следующие темы:- Введение в задачи манипуляции и навигации роботов и их реальные приложения. Роль трансформеров в моделировании зрения, языка и действий, а также их ограничения в решении частично наблюдаемых марковских процессов принятия решений (POMDP)
- Основы обучения с подкреплением (RL) для робототехники: марковские процессы принятия решений (MDP), оптимизация стратегии агента и методы обучения
- Проектирование архитектур трансформеров для непрерывного управления: энкодер-декодер структуры для обработки состояний наблюдений и генерации последовательностей действий. Использование гауссовских политик для непрерывного управления
- Стратегии офлайн-обучения для манипуляции и навигации роботов: клонирование поведения (BC) и оффлайн обучение с подкреплением (Offline RL)
- Формулировка задачи и проектирование вознаграждений для манипуляции и навигации роботов. Способы проектирования эффективных функций вознаграждения
- Интеграция оффлайн и онлайн фаз обучения: техники стабилизации переходов между оффлайн и онлайн обучением
- Практическая реализация моделей на основе трансформеров: создание единой архитектуры для актор-критик моделей
- Оценочные метрики и бенчмаркинг для манипуляции и навигации роботов
- Проблемы и открытые вопросы в робототехнике на основе трансформеров: теоретические ограничения трансформеров в решении POMDP и проблемы масштабируемости