Эта модель построена на архитектуре Würstchen, и ее главное отличие от других моделей, таких как Stable Diffusion, заключается в том, что она работает в гораздо меньшем скрытом пространстве. Почему это важно? Чем меньше скрытое пространство, тем быстрее вы можете выполнять логический вывод и тем дешевле становится обучение.
По заявлению разработчиков, Stable Cascade исключительно легко обучать и настраивать на потребительском оборудовании благодаря трехэтапному подходу.
Кратко о модели
- Stable Cascade — диффузионная модель для генерации изображений по текстовому запросу.
- Модель состоит из трех моделей: Stage A, Stage B и Stage C, обеспечивающих каскад для генерации изображений.
- Stable Cascade использует более высокое сжатие изображений, достигая коэффициента сжатия 42.
- Это обеспечивает более дешевое обучение и вывод, а также точную декодировку изображений.
- Этап C отвечает за генерацию скрытых значений 24 x 24, выдаваемых в текстовом приглашении.
- Модель предназначена для исследовательских целей и может быть использована в различных областях и задачах исследований.
- Модель не обучена создавать фактические или правдивые изображения людей или событий, и ее использование для создания такого контента выходит за рамки возможностей.
- Модель не должна использоваться каким-либо образом, нарушающим Политику допустимого использования Stabilityai.