Этот подход позволяет роботу эффективно выполнять многошаговые задачи навигации, используя только текстовые данные, что облегчает процесс обучения и повышает производительность в условиях, когда визуальных данных недостаточно.
В отличие от существующих методов, требующих огромного количества визуальных данных для обучения, новый подход позволяет быстро генерировать синтетические данные, используя большие языковые модели. Это обеспечивает большую доступность обучающих данных и помогает заполнить пробелы между симуляцией и реальным миром.
Использование текстовых описаний также упрощает процесс анализа производительности робота, делая его более понятным для человека и позволяя быстрее выявлять причины неудачных попыток достижения цели.
Хотя новый метод не полностью заменяет традиционные визуальные подходы, он предлагает ряд преимуществ, включая универсальность применения для различных задач и окружающих сред, а также легкость в понимании результатов благодаря использованию естественного языка.