Новый инструмент позволяет пользователям создавать звуковые дорожки для видео, используя как текстовые подсказки, так и визуальные данные. Например, для видео с автомобилем, едущим по городу в стиле киберпанк, была использована подсказка «скрип тормозов, звук двигателя, ангельская электронная музыка». В результате инструмент сгенерировал звук, точно соответствующий движению автомобиля и атмосфере сцены (* первое видео под новостью).
Инструмент также может создавать звуковую среду для подводных сцен с помощью подсказок, таких как «пульсирующие медузы, морская жизнь, океан», добавляя реалистичные звуковые эффекты, которые погружают зрителя в подводный мир.
Преимущества и особенности
Одним из ключевых преимуществ нового инструмента является его способность генерировать неограниченное количество звуковых дорожек для видео. Это позволяет пользователям экспериментировать с различными звуковыми решениями и находить оптимальное звучание для своих проектов.
DeepMind обучала свой инструмент на данных, содержащих подробные описания звуков и расшифровки диалогов, способствующее тому чтобы точно сопоставлять аудиособытия с визуальными сценами. Пользователи могут применять текстовые подсказки по желанию, но это не обязательное условие для работы с инструментом.
Ограничения и будущие улучшения
Несмотря на впечатляющие возможности, у инструмента DeepMind есть некоторые недостатки. Например, он все еще совершенствует способность синхронизировать движения губ с диалогами (липсинг), и это видно на примере видео с пластилиновой анимацией (* второе видео под новостью). Качество генерируемого звука также зависит от качества видео: зернистые или искаженные видеозаписи могут привести к снижению качества звука.
* Инструмент пока не доступен для широкой публики, так как он проходит строгие проверки безопасности и тестирования. В будущем, звуковые дорожки, созданные этим инструментом, будут содержать водяной знак Google SynthID, указывающий на то, что звук был сгенерирован ИИ.
Новый инструмент Google DeepMind открывает для нас новые возможности для создания звуковых дорожек для видео, сочетая текстовые подсказки и визуальные данные. Это инновационное решение может существенно упростить процесс создания звуковых эффектов, музыки и диалогов, делая его доступным даже для пользователей без специального аудиообразования.