Образовательный форум по искусственному интеллекту, математике и физике 2024

Задача 1:
Мультикамерное распознавание места
Задача предложена Центром когнитивного моделирования МФТИ
при поддержке Фонда содействия инновациям
Описание задачи
Распознавание места (Place Recognition) – одна из важных задач робототехники и автономного транспорта, нацеленная на оценку текущего положения путем сравнения данных одного или нескольких сенсоров (например, камер) с хранимыми в базе данными. Чаще всего распознавание места формулируется как "image retrieval"-задача: входные данные кодируются в вектор-дескриптор и осуществляется поиск ближайших соседей в хранимой базе дескрипторов.

На хакатоне Вам необходимо разработать метод распознавания места на территории кампуса МФТИ для мобильного робота Clearpath Husky (см. рисунок 1) по синхронизированным данным его двух бортовых камер, дополнительно можно использовать семантическую информацию о сцене в виде масок семантической сегментации изображений и результаты детекции и распознавания текстовых надписей. Такая постановка задачи является современным трендом в искусственном интеллекте и Вам предоставляется познакомиться с её существующими решениями и предложить свое.

Презентация: Юдин Д.А. Описание хакатона "Мультикамерное распознавание места"
Рисунок 1. Мобильный робот ClearPath Husky cо стереокамерами ZED и RealSense D435 , 16-ти лучевым лидаром VLP-16 (в ходе хакатона его данные не используются) и манипулятором UR5, находящий в распоряжении Центра когнитивного моделирования МФТИ
В качестве базового решения Вам предоставляется алгоритм на основе библиотеки OpenPlaceRecogntion, кодирующий входные изображения с передней и задней камеры в вектор-дескриптор для последующего сравнения с дескрипторами в базе данных. Для использования масок семантической сегментации изображений Вам предлагается применить существующие или обучить свои энкодеры изображений. Для распознавания текстовых надписей в библиотеке предусмотрен специальный нейросетевой модуль, который можно использовать в предобученном виде или самостоятельно дообучить.

Для обучения и тестирования решений участникам предоставляется новый открытый набор данных ITLP-Campus, который состоит из 5 треков, записанных на территории кампуса МФТИ зимой и весной в разное время суток и в разных погодных условиях. Траектории проезда робота по кампусу при записи набора данных были близки друг к другу.
Датасет содержит:
  • изображения с передней и задней камеры робота,
  • семантические карты для изображений,
  • разметку текстовых надписей на изображениях,
  • координаты места на карте.
В процессе подготовки набора данных была построена точная трехмерная карта местности и выполнена локализация робота с ошибкой до 15 см без использования глобальной спутниковой навигацией (при поддержке компании ООО "ИнтеграНТ"), см. видео ниже.
Для обучения алгоритмов дополнительно можно использовать существующие открытые мультимодальные датасеты: Oxford RobotCar и NCLT.

Технические детали по набору данных, вспомогательные скрипты, базовые решения можно найти в репозитории: https://github.com/richlukich/iprofihack2024_place_recognition

Данные доступны для скачивания:

  • Датасеты:
Oxford:

NCLT:

Наш (ITLP-Campus)
Метрики по которым мы будем определять лучшее решение
Алгоритм оценки решений участников будет следующим:
  • Из исходного множества треков будут формироваться все возможные пары "(query, database)". Т.е. для N треков будет сформировано N*(N-1) пар.
  • Query - трек с "запросами", database – трек "база данных".
  • Для каждой пары (query, database) будет вычисляться метрика Recall@1:
  • Если координаты найденного ближайшего (топ-1) места из базы данных лежат в радиусе 5-ти метров от истинного положения места-запроса, то место считается корректно распознанным;
  • Recall@1 – доля таких корректно распознанных мест.
Итоговая метрика: Average Recall@1, равная усредненному значению Recall@1 для всех пар треков. (Далее метрика пересчитывается в 100 баллов)
Такая оценка качества решения является общепризнанной для задачи распознавания места.

Участникам будет предоставлен скрипт, подготавливающий файл-ответ в определенном формате, который нужно будет загрузить на платформу Яндекс.Контест ссылка

Часть тестовых данных будет отложена и предоставлена участникам за несколько часов до завершения соревнования.

Небольшое видео-демонстрация треков датасета:
- Видео 1: https://drive.google.com/file/d/1GcJ4jBFuT-Cr4MUTuZaqmX7WDgMNLLJ9/view?usp=share_link
- Видео 2: https://drive.google.com/file/d/1BbbCDUx6DnWKaCIga...
- Видео 3: https://drive.google.com/file/d/1KiBpk1fBE6cF4BGFK...
Рисунок 3. Пример работы бейзлайна - корректно распознанное место
Оценка за презентацию и особенности реализации решения задачи
Второй частью, за которую будут начисляться баллы жюри (дополнительные 100 баллов), является итоговая презентация, на которой участникам необходимо рассказать о ходе решения задачи, реализованных идеях и достигнутых количественных и качественных показателях

Дополнительные баллы можно получить за:
1) Код программной визуализации результатов распознавания места (изображения-запросы и топ-3 фрейма найденных в базе, а также точки на траектории - найденная и истинная) (максимум 25 баллов)
2) Использование и модификация модуля распознавания текстовых надписей при решении решении задачи (максимум 25 баллов)
3) Описание схемы предложенного решения, процесс улучшения метрик качества в табличном виде и на качественных примерах-изображениях. Ответы на вопросы (максимум 50 баллов)

Суммарно за решение задачи хакатона можно получить 200 баллов максимум

Контакты с организатором хакатона
Основные вопросы будут обсуждаться в телеграм-группе:

https://t.me/+ZrwiaXjWArY2Zjli

Здесь будем выкладывать данные, отвечать на вопросы.

Место проведения: Главный корпус, 4 этаж, ГК416
Организации-партнеры кейса