Ранее существовавшие диффузионные модели, обученные на произвольных фрагментах аудио, зачастую не могли корректно сгенерировать звук заданной протяженности, что приводило к обрыванию музыкальных фраз. Другими словами, они могли начинаться и заканчиваться на неоконченной музыкальной ноте. «Stability AI» кардинально решает эту проблему, позволяя создавать музыку и аудио-фрагменты требуемой длины.
Ключевой особенностью архитектуры Stable Audio является использование сильно сжатого латентного представления аудиосигнала, что резко ускоряет процесс генерации по сравнению с обработкой «сырого» звука. Используя последние достижения в области диффузионной дискретизации, флагманская модель Stable Audio способна воспроизвести 95 секунд стереозвука с частотой дискретизации 44,1 кГц менее чем за одну секунду на графическом процессоре NVIDIA A100.
Ядро Stable Audio включает в себя вариационный автокодировщик, текстовый энкодер и диффузионную U-Net модель. Автокодировщик выполняет сжатие аудио в компактное шумоустойчивое представление, ускоряя генерацию и обучение. Текстовый энкодер, основанный на модели CLAP, извлекает семантические признаки из текстовых подсказок. Диффузионная U-Net модель, насчитывающая 907 млн параметров.
Для обучения флагманской модели Stable Audio, разработчики использовали базу данных, состоящий из более чем 800 000 аудиофайлов, содержащих музыку, звуковые эффекты, звуки отдельных инструментов, а также соответствующие текстовые метаданные, предоставленные в рамках договора с поставщиком стоковой музыки AudioSparx. В общей сложности база данных составляет более 19 500 часов аудиозаписей.
Stable Audio олицетворяет передовую исследовательскую мысль в области генерации аудио, реализованную лабораторией Harmonai от Stability AI. Команда продолжает совершенствовать архитектуры, датасеты и методы обучения моделей с целью повышения качества, управляемости, скорости генерации и расширения диапазона длительности трека.