На CVPR NVIDIA продемонстрировала, как расширяются границы возможностей в таких областях, как генерация изображений, автономное вождение и понимание визуального языка. Ян Каутц, вице-президент по исследованиям обучения и восприятия в NVIDIA, отметил значимость этих достижений:
«Искусственный интеллект, и в частности генеративный ИИ, представляют собой важнейшее технологическое достижение.» — Jan Kautz
Одним из главных проектов является JeDi — техника, позволяющая быстро настраивать диффузионные модели для создания изображений конкретных объектов или персонажей с помощью нескольких референсных изображений. Подобный подход значительно ускоряет процесс создания контента.
FoundationPose — еще одно значимое достижение. Эта базовая модель может моментально понимать и отслеживать 3D-позиции объектов в видео без необходимости индивидуального обучения для каждого объекта. Это открытие может привести к новым приложениям в дополненной реальности и робототехнике.
Победы и признание
Среди более чем 50 исследовательских проектов NVIDIA на конференции, два доклада стали финалистами премии Best Paper Awards: исследование динамики обучения диффузионных моделей и работа по созданию высокоточных карт для самоуправляемых автомобилей.
Кроме того, NVIDIA выиграла конкурс CVPR Autonomous Grand Challenge в номинации End-to-End Driving at Scale, превзойдя более 450 участников со всего мира. Достижение демонстрирует ведущую роль компании в использовании генеративного ИИ для создания комплексных моделей для автономного транспорта и принесло ей победу за инновации от CVPR.
Прорыв в 3D-редактировании
Еще одним важным проектом стал NeRFDeformer, метод редактирования 3D-сцен, захваченных с помощью Neural Radiance Field (NeRF), с использованием одного 2D-снимка. Такая технология может значительно упростить процесс редактирования 3D-сцен для графики, робототехники и цифровых двойников.
В сотрудничестве с MIT, NVIDIA разработала VILA, новое семейство моделей, объединяющих визуальное и лингвистическое понимание. Модели достигли передовых результатов в понимании изображений, видео и текста, что позволяет им даже разбирать интернет-мемы.
Итоги
Обширные исследования NVIDIA в области визуального ИИ охватывают множество отраслей, включая беспилотники, производство и здравоохранение. Работа команды NVIDIA во главе с Санжей Фидлер, вице-президентом по исследованиям ИИ, показывает, как генеративный ИИ может расширить возможности создателей контента, ускорить автоматизацию и продвинуть автономные технологии.