3D VQA: Применение графов 3D-сцены для ответов на визуально-пространственные вопросы по видео
Несмотря на значительный прогресс в визуальных фундаментальных моделях (foundation models) анализа видео, современные системы по-прежнему испытывают трудности с последовательным и надежным пространственным пониманием (spatial understanding). Такие задачи, как распознавание относительного положения объектов, поддержание 3D-согласованности между различными точками обзора, анализ движения и пространственных отношений, остаются нерешенными. Эти ограничения создают существенные препятствия для внедрения подобных моделей в критически важных приложениях, таких как робототехника, автономное вождение или воплощенный искусственный интеллект.

Задачи исследования
  • Разработка метода генерации графов 3D-сцен по видео с автоматической верификацией и фильтрацией выбросов
  • Разработка метода автоматической генерации по видео обучающего набора данных, состоящего из графов 3D-сцены, пар визуально-пространственных вопросов и ответов
  • Исследование повышения качества пространственного понимания у современных VLM/MLLM на целевых бенчмарках путем разработки алгоритма их дообучения на созданном наборе данных
  • Разработка программного обеспечения, реализующего созданные методы и алгоритмы
Made on
Tilda