Несмотря на значительный прогресс в визуальных фундаментальных моделях (foundation models) анализа видео, современные системы по-прежнему испытывают трудности с последовательным и надежным пространственным пониманием (spatial understanding). Такие задачи, как распознавание относительного положения объектов, поддержание 3D-согласованности между различными точками обзора, анализ движения и пространственных отношений, остаются нерешенными. Эти ограничения создают существенные препятствия для внедрения подобных моделей в критически важных приложениях, таких как робототехника, автономное вождение или воплощенный искусственный интеллект.
Задачи исследования- Разработка метода генерации графов 3D-сцен по видео с автоматической верификацией и фильтрацией выбросов
- Разработка метода автоматической генерации по видео обучающего набора данных, состоящего из графов 3D-сцены, пар визуально-пространственных вопросов и ответов
- Исследование повышения качества пространственного понимания у современных VLM/MLLM на целевых бенчмарках путем разработки алгоритма их дообучения на созданном наборе данных
- Разработка программного обеспечения, реализующего созданные методы и алгоритмы