Connect with us

Hi, what are you looking for?

Наука и технологии

Stability AI представляет революционную технологию генерации аудио Stable Audio

Ранее существовавшие диффузионные модели, обученные на произвольных фрагментах аудио, зачастую не могли корректно сгенерировать звук заданной протяженности, что приводило к обрыванию музыкальных фраз. Другими словами, они могли начинаться и заканчиваться на неоконченной музыкальной ноте. «Stability AI» кардинально решает эту проблему, позволяя создавать музыку и аудио-фрагменты требуемой длины.

Ключевой особенностью архитектуры Stable Audio является использование сильно сжатого латентного представления аудиосигнала, что резко ускоряет процесс генерации по сравнению с обработкой «сырого» звука. Используя последние достижения в области диффузионной дискретизации, флагманская модель Stable Audio способна воспроизвести 95 секунд стереозвука с частотой дискретизации 44,1 кГц менее чем за одну секунду на графическом процессоре NVIDIA A100.

Ядро Stable Audio включает в себя вариационный автокодировщик, текстовый энкодер и диффузионную U-Net модель. Автокодировщик выполняет сжатие аудио в компактное шумоустойчивое представление, ускоряя генерацию и обучение. Текстовый энкодер, основанный на модели CLAP, извлекает семантические признаки из текстовых подсказок. Диффузионная U-Net модель, насчитывающая 907 млн параметров.

Для обучения флагманской модели Stable Audio, разработчики использовали базу данных, состоящий из более чем 800 000 аудиофайлов, содержащих музыку, звуковые эффекты, звуки отдельных инструментов, а также соответствующие текстовые метаданные, предоставленные в рамках договора с поставщиком стоковой музыки AudioSparx. В общей сложности база данных составляет более 19 500 часов аудиозаписей.

Stable Audio олицетворяет передовую исследовательскую мысль в области генерации аудио, реализованную лабораторией Harmonai от Stability AI. Команда продолжает совершенствовать архитектуры, датасеты и методы обучения моделей с целью повышения качества, управляемости, скорости генерации и расширения диапазона длительности трека.

Перейти в Stable Audio

You May Also Like

Наука и технологии

Подписчики Peacock смогут выбирать предпочтительные олимпийские события и типы ярких моментов — от вирусных моментов до завоевания золотых медалей. Используя алгоритмы искусственного интеллекта, системы...

Наука и технологии

Общественный деятель и юрист Валерия Рытвина направила генеральному прокурору РФ Игорю Краснову заявление с просьбой провести прокурорскую проверку Сбербанка в связи с использованием им...

Наука и технологии

В жалобе утверждается, что программное обеспечение Microsoft Clarity использовалось для отслеживания действий пользователей на этих сайтах, включая поиск и совершение покупок, и собирало «очень...

Наука и технологии

В частности, отверстия для крепежа оказались больше, чем предполагалось, что привело к снижению мощности и давления воздуха, необходимых для обеспечения безопасности полетов. После того...