Образовательный форум по искусственному интеллекту, математике и физике 2023

Задача 1:
Определи своё место на Физтехе
Задача предложена Центром когнитивного моделирования МФТИ
и ООО Интегрант
Описание задачи
Распознавание места (Place Recognition) – одна из важных задач робототехники и автономного транспорта, нацеленная на оценку текущего положения путем сравнения данных одного или нескольких сенсоров (камеры, лидара) с хранимыми в базе данными. Чаще всего распознавание места формулируется как "image retrieval"-задача: входные данные кодируются в вектор-дескриптор и осуществляется поиск ближайших соседей в хранимой базе дескрипторов.

На хакатоне Вам необходимо разработать метод распознавания места на территории кампуса МФТИ для мобильного робота Clearpath Husky (см. рисунок 1) по синхронизированным данным его двух бортовых камер и лидара, дополнительно можно использовать семантическую информацию о сцене в виде масок семантической сегментации изображений и их текстовых описаний. Такая мультимодальная постановка задачи является современным трендом в искусственном интеллекте и Вам предоставляется познакомиться с её существующими решениями и предложить свое.

Презентация: Юдин Д.А. Описание хакатона "Определи своё место на Физтехе"
Рисунок 1. Мобильный робот ClearPath Husky cо стереокамерами ZED и RealSense D435 , 16-ти лучевым лидаром VLP-16 и манипулятором UR5, находящий в распоряжении Центра когнитивного моделирования МФТИ
В качестве базового решения Вам предоставляется алгоритм на основе state-of-the-art подхода Minkloc++, кодирующий входные данные двух модальностей (изображения с передней и задней камеры, облака точек лидара), в вектор-дескриптор для последующего сравнения с дескрипторами в базе данных. Для использования масок семантической сегментации изображений и их текстового описания изображений Вам предлагается применить существующие или обучить свои энкодеры изображений/текста.

Для обучения и тестирования решений участникам предоставляется новый открытый набор данных ITLP-Campus, который состоит из 5 треков, записанных на территории кампуса МФТИ зимой и весной 2023 года в разное время суток и в разных погодных условиях. Траектории проезда робота по кампусу при записи набора данных были близки друг к другу.
Датасет содержит:
  • изображения с передней и задней камеры робота,
  • облака точек бортового 16-лучевого лидара,
  • семантические карты для изображений,
  • текстовое описание изображений,
  • координаты места на карте.
В процессе подготовки набора данных была построена точная трехмерная карта местности и выполнена локализация робота с ошибкой до 15 см без использования глобальной спутниковой навигацией (при поддержке компании ООО "ИнтеграНТ"), см. видео ниже.
Текстовые описания места были сформированы с помощью современной большой языковой модели miniGPT-4 (https://minigpt-4.github.io/). Пример генерации таких описаний показан на рисунке 2 ниже.
Рисунок 2. Пример работы модели miniGPT-4 для формирования текстовых описаний изображений
Для обучения алгоритмов дополнительно можно использовать существующие открытые мультимодальные датасеты: Oxford RobotCar и NCLT.

Технические детали по набору данных, вспомогательные скрипты, базовые решения можно найти в репозитории: https://github.com/alexmelekhin/iprofihack2023_place_recognition

Данные доступны для скачивания:


  • Наш (ITLP)
Метрики по которым мы будем определять лучшее решение
Алгоритм оценки решений участников будет следующим:
  • Из исходного множества треков будут формироваться все возможные пары "(query, database)". Т.е. для N треков будет сформировано N*(N-1) пар.
  • Query - трек с "запросами", database – трек "база данных".
  • Для каждой пары (query, database) будет вычисляться метрика Recall@1:
    • Если координаты найденного ближайшего (топ-1) места из базы данных лежат в радиусе 5-ти метров от истинного положения места-запроса, то место считается корректно распознанным;
    • Recall@1 – доля таких корректно распознанных мест.

Итоговая метрика: Average Recall@1, равная усредненному значению Recall@1 для всех пар треков.
Такая оценка качества решения является общепризнанной для задачи распознавания места.

Участникам будет предоставлен скрипт, подготавливающий файл-ответ в определенном формате, который нужно будет загрузить на платформу Яндекс.Контест ссылка

Часть тестовых данных будет отложена и предоставлена участникам за час до завершения соревнования.

Небольшое видео-демонстрация треков датасета:
- Видео 1:
- Видео 2: https://drive.google.com/file/d/1BbbCDUx6DnWKaCIga...
- Видео 3: https://drive.google.com/file/d/1KiBpk1fBE6cF4BGFK...
Рисунок 3. Пример работы бейзлайна - корректно распознанное место
Победители хакатона
Контакты с организатором хакатона
Основные вопросы будут обсуждаться в телеграм-группе:

https://t.me/iprofihack2023_place_recognition

Здесь будем выкладывать данные, отвечать на вопросы.

Место проведения: Главный корпус, Зеленый читальный зал
Организации-партнеры кейса