Современные мобильные роботы и беспилотные автомобили активно используют методы планирования и поиска на графе состояний для построения траектории своего движения и для построения различных маневров в динамической среде. Чаще всего такие планы строятся либо на основе фиксированных правил, либо на основе эвристик, которые существенно ограничивают возможность применения этих правил и планов в новых условиях среды.
В данном направлении мы занимаемся интеграцией методы обучения с подкреплением и планирования поведения для создания адаптивных подходов, которые были более стабильны для высокодинамичных многоагентных сред как в симуляционных средах (
Apollo,
Isaac), так и на реальных роботах.