3D VQA: Применение графов 3D-сцены для ответов на визуально-пространственные вопросы по видео

3D VQA: Применение графов 3D-сцены для ответов на визуально-пространственные вопросы по видео

Несмотря на значительный прогресс в визуальных фундаментальных моделях (foundation models) анализа видео, современные системы по-прежнему испытывают трудности с последовательным и надежным пространственным пониманием (spatial understanding). Такие задачи, как распознавание относительного положения объектов, поддержание 3D-согласованности между различными точками обзора, анализ движения и пространственных отношений, остаются нерешенными. Эти ограничения создают существенные препятствия для внедрения подобных моделей в критически важных приложениях, таких как робототехника, автономное вождение или воплощенный искусственный интеллект.

Задачи исследования

Разработка метода генерации графов 3D-сцен по видео с автоматической верификацией и фильтрацией выбросов
Разработка метода автоматической генерации по видео обучающего набора данных, состоящего из графов 3D-сцены, пар визуально-пространственных вопросов и ответов
Исследование повышения качества пространственного понимания у современных VLM/MLLM на целевых бенчмарках путем разработки алгоритма их дообучения на созданном наборе данных
Разработка программного обеспечения, реализующего созданные методы и алгоритмы