Connect with us

Hi, what are you looking for?

Наука и технологии

Новый инструмент Google DeepMind генерирует звуковые дорожки на основе видео и текстовых подсказок

Новый инструмент позволяет пользователям создавать звуковые дорожки для видео, используя как текстовые подсказки, так и визуальные данные. Например, для видео с автомобилем, едущим по городу в стиле киберпанк, была использована подсказка «скрип тормозов, звук двигателя, ангельская электронная музыка». В результате инструмент сгенерировал звук, точно соответствующий движению автомобиля и атмосфере сцены (* первое видео под новостью).

Инструмент также может создавать звуковую среду для подводных сцен с помощью подсказок, таких как «пульсирующие медузы, морская жизнь, океан», добавляя реалистичные звуковые эффекты, которые погружают зрителя в подводный мир.

Преимущества и особенности

Одним из ключевых преимуществ нового инструмента является его способность генерировать неограниченное количество звуковых дорожек для видео. Это позволяет пользователям экспериментировать с различными звуковыми решениями и находить оптимальное звучание для своих проектов.

DeepMind обучала свой инструмент на данных, содержащих подробные описания звуков и расшифровки диалогов, способствующее тому чтобы точно сопоставлять аудиособытия с визуальными сценами. Пользователи могут применять текстовые подсказки по желанию, но это не обязательное условие для работы с инструментом.

Ограничения и будущие улучшения

Несмотря на впечатляющие возможности, у инструмента DeepMind есть некоторые недостатки. Например, он все еще совершенствует способность синхронизировать движения губ с диалогами (липсинг), и это видно на примере видео с пластилиновой анимацией (* второе видео под новостью). Качество генерируемого звука также зависит от качества видео: зернистые или искаженные видеозаписи могут привести к снижению качества звука.

* Инструмент пока не доступен для широкой публики, так как он проходит строгие проверки безопасности и тестирования. В будущем, звуковые дорожки, созданные этим инструментом, будут содержать водяной знак Google SynthID, указывающий на то, что звук был сгенерирован ИИ.

Новый инструмент Google DeepMind открывает для нас новые возможности для создания звуковых дорожек для видео, сочетая текстовые подсказки и визуальные данные. Это инновационное решение может существенно упростить процесс создания звуковых эффектов, музыки и диалогов, делая его доступным даже для пользователей без специального аудиообразования.

You May Also Like

Наука и технологии

Посетитель такого заведения не застрахован от заражения опасными инфекциями, включая сальмонеллёз. Врач объяснил, почему такое может произойти. Жемчугов отметил, что в морской рыбе, которую...

Наука и технологии

Общественный деятель и юрист Валерия Рытвина направила генеральному прокурору РФ Игорю Краснову заявление с просьбой провести прокурорскую проверку Сбербанка в связи с использованием им...

Наука и технологии

Подписчики Peacock смогут выбирать предпочтительные олимпийские события и типы ярких моментов — от вирусных моментов до завоевания золотых медалей. Используя алгоритмы искусственного интеллекта, системы...

Наука и технологии

В жалобе утверждается, что программное обеспечение Microsoft Clarity использовалось для отслеживания действий пользователей на этих сайтах, включая поиск и совершение покупок, и собирало «очень...