Семинары
Центра когнитивного моделирования
Первая серия семинаров, которую организует наш Центр, будет посвящена обучению с подкреплением (RL). В этой серии рабочих семинаров сотрудники лаборатории когнитивных динамических систем совместно с приглашенными гостями расскажут о своих текущих проектах и исследованиях.

Приглашаем вас подключиться к обсуждению текущих SOTA методов и алгоритмов в области Reinforcement Learning!
График
ICLR 2020 & Machines Can See 2020
Вт, 30 Июня 18:00
Александр Панов, Алексей Ковалев и Дмитрий Юдин, Центр Когнитивного Моделирования МФТИ

Александр Панов проведет краткий обзор прошедшей конференции ICLR 2020, - о том как она проходила, а также разберут некоторые работы и статьи по теметике Reinforcement Learning. Алексей Ковалев расскажет нескольких статей с рассуждениями по видео, картинкам и текстам.
Во второй части Дмитрий Юдин сделает небольшой доклад о прошедшем саммите Machines Can See, посвященному идеям и тенденциями в области компьютерного зрения и машинного обучения.
Augmentation Reinforcement Learning
Вт, 23 Июня 18:00
Александра Рак, ВШЭ

Рассказ будет посвящен исследованию применения аугментации изображений в задачах обучения с подкреплением. Анализ проводится на основе model-free off-policy алгоритма Rainbow. В качестве регуляризации рассматривается аугментация кадров игры как состояний среды в момент сэмплирования данных из буфера воспроизведения. В роли техник аугментации наблюдаются рандомизированное изменение контраста изображения, закрашивание случайных прямоугольников, вырезание фрагмента с дополнением размера до исходного. Исследования проводятся на средах игр Atari Breakout, Space Invaders и Wizard of Wor. Для некоторых типов аугментаций получены результаты, подтверждающие ускорение сходимости модели.
NeurIPS 2020 RL Challenges & Flatland Competition
Вт, 16 Июня 18:00
Константин Яковлев и Алексей Скрынник, Центр Когнитивного Моделирования МФТИ

Совсем скоро начнутся соревнования на NeurIPS 2020. В прошлом году наш Центр и RL Community активно принимали в них участие. Настала пора выбрать новые! В начале семинара Алексей Скрынник сделает обзор тех из них, что относятся к теме Reinforcement Learning.
Во второй части Константин Яковлев расскажет об опыте участия в соревновании Flatland (JelDor Team, 3rd place), которое проходит и в этом году, где задачей было построить мультиагентную систему, способную автоматически координировать между собой поезда с целью минимизиции задержек в больших сетях.
https://www.aicrowd.com/challenges/flatland-challenge
Model-based RL: Delta Schema case study
Вт, 9 Июня 18:00
Александра Шлычкова и Андрей Городецкий, лаборатория КДС МФТИ

В начале семинара проведем обзор ряда model-based подходов. В процессе подробно рассмотрим подход на основе логических схем, представленный в SchemaNet и его модификацию, - Delta SchemaNet. Будут продемонстрированы результаты экспериментов с измененной реализацией. В завершение обсудим применимость данного подхода для более сложных, чем в экспериментах сред.
CarIntersect Environment
Вт, 2 Июня 18:00
Михаил Мартинсон, лаборатория КДС МФТИ

В своем выступление Михаил проведет обзор нескольких сред для моделирования движения машин, а в основной части доклада расскажет о разработанной среде CarIntersect и экспериментам, проведенным в ней. Данная среда моделирует четырехполосный перекресток с машинами-ботами, как состояние может выдаваться фотореалистичное изображение и настраиваемый вектор сенсоров машины.
Первая версия среды выложена в открытый доступ: https://github.com/MartinsonMichael/CarRacing_agents/tree/master/env
Persistent Reinforcement Learning
Вт, 26 Мая 18:00
Алексей Скрынник, лаборатория КДС МФТИ

На семинаре Алексей расскажет об идеи, которую хотел бы попробовать применить. Идея называется Persistent RL по аналогии с персистентными структурами данных в программировании. В RL мы так назвали MDP, в котором разрешены откаты назад.
Две интуиции: 1) если агент попал в плохое состояние (например умер, или попал туда, откуда не может выбраться), такой подход позволит откатиться назад. 2) агент попал в интересное состояние, можно научиться доходить до этого состояния из предыдущих (исследование среды). Расскажем почему такая постановка - это не планирование, но чем похожа на него. В конце разберем несколько работ, которыми можно воспользоваться при реализации этого подхода.
Как настроить систему обучения с подкреплением для промышленных роботов
Вт, 19 Мая 18:00
Ali Younes, лаборатория КДС МФТИ

Как лучше настроить обучение с подкреплением, чтобы работать с промышленными манипуляторами?
На семинаре Али расскажет о различных вариантах обучения с подкреплением для этой цели, покажет преимущества и недостатки каждого. Рассмотрим какие вспомогательные системы могут в этом помочь (обучение представлению TCN, DON, SCL). В конце семинара представим полной RL-фреймворк для промышленных роботов.
Обучение интеллектуальных агентов навигации в реалистичных окружениях с помощью методов градиента стратегии
Вт, 12 Мая 18:00
Алексей Староверов, лаборатория КДС МФТИ

Навигация внутри помещений является одной из основных задач в робототехнических системах. Большинство решений в этой области полагаются на идеальные координаты агента и заранее известную карту помещения. Тем не менее, высокая точность локализации в помещениях не может быть достигнута в реалистичных сценариях. Система GPS имеет низкую точность в помещении, одометрия часто дает большой шум для точного определения местоположения и т.д. В данной работе было проведено исследование задачи навигации в среде Habitat. В качестве наиболее перспективных базовых подходов были выбраны DDPPO и ANM
Планирование и его применение в обучении с подкреплением
Вт, 28 Апреля 18:00
Кирилл Аксенов, лаборатория КДС МФТИ

На семинаре Кирилл расскажет, как изначально появилось планирование, сравнит последние алгоритмы в этой области с помощью прецедентов. Во второй части разберем, как работает классический поиск по дереву Монте-Карло, его базовые улучшения, и как он помог DeepMind решить среду Go, а также про дальнейшие исследования в применении MCTS для планирования с помощью прецедентов.
Interferobot: настраиваем
оптический интерферометр с помощью RL
Вт, 21 Апреля 18:00
Дмитрий Сорокин, Российский Квантовый Центр

Несмотря на большие успехи RL в видеоиграх его использование для управления реальными роботами ограничено сложностью в получении больших объемов обучающих данных. Дмитрий представит подход, который позволяет обучить RL агента настраивать реальную оптическую установку по изображениям с камеры. Для обучения агента используется симулятор экспериментальной установки. При добавлении рандомизаций в симуляцию получается настраивать реальный интерферометр на уровне опытного специалиста. В конце выступления обсудим влияние каждой рандомизации на качество настройки интерферометра.
High-throughput Asynchronous Reinforcement Learning
Вт, 14 Апреля 20:00
Алексей Петренко, PhD Student at University of Southern California, Robotic Embedded Systems Lab

Эксперименты крупных AI-лабораторий, такие как AlphaGo, AlphaStar и OpenAI Five, вызвали мощную волну интереса к обучению с подкреплением. Мы увидели, что доступ к большим вычислительным кластерам даёт исследователям возможность одновременно симулировать тысячи сред и агентов, и использовать миллиарды траекторий для обучения моделей. Но является ли доступ к суперкомпьютеру обязательным условием для проведения интересных и масштабных RL экспериментов?
На семинаре Алексей расскажет о вычислительных аспектах on-policy RL алгоритмов, и о том, каким образом можно кратно ускорить RL эксперименты с помощью алгоритмических оптимизаций и эффективной реализации, выжимая абсолютный максимум из доступного железа.
Reinforcement Learning:
Demo+Robotics
Вт, 7 Апреля 18:00
Эрмек Айтыгулов, лаборатория КДС МФТИ

На семинаре разберем методы переноса модели в реальную среду (SimToReal). Обычно под SimtoReal подразумевается решение задачи с обучением RL модели в симуляции и затем перенос модели (трансфер) и ее дообучение в реальной среде. Так же расскажем о небольших удобствах, которые открыли для себя во время работы - Ray, Tensorflow Data, PyRep, XLA (одна строка кода, ускорение ваших DQN'ов в 1.17 раз) и другие.