Ученые отмечают, что люди пока с опаской относятся к полной передаче управления машинам. Голосовой помощник позволит пассажирам давать указания автомобилю, повышая доверие к автономному транспорту.
Сложность заключается в том, чтобы научить систему понимать естественную речь и связывать её с обстановкой на дороге. Исследователи использовали набор данных Talk2Car, где нужно указывать на участки дороги, исходя из текстовых инструкций.
Для решения этой задачи создана модель CAVG. Она использует компьютерное зрение для выделения областей на изображении с камеры, а затем анализирует их соответствие командам. Особое внимание уделено пониманию эмоционального контекста команд и сложных ситуаций на дороге. В модели применяются современные языковые технологии, вроде GPT-4V, для точной интерпретации команд.
Для проверки эффективности модель испытывали в сложных условиях: ночью, в плотном городском потоке, с неоднозначными командами и плохой видимостью.
CAVG показала высокие результаты, превзойдя существующие решения. Исследования планируют развивать, добавляя в систему больше видов данных, вроде вида сверху (с высоты птичьего полета) и информации о траектории движения. Это позволит повысить точность управления и сделать автономные автомобили еще надежнее.