Stable Diffusion: как пользоваться нейросетью для генерации изображений
Куда обращаться, если нам потребуется реалистичное изображение не по запросу, а по наброску с определенной композицией и расположением предметов? Ответ есть — это нейросеть Stable Diffusion.
К 2024 году ни у одного пользователя сети уже не должно возникнуть проблем с генерацией картинок — сервисы для этого будто на прилавке в магазине, на любой вкус и цвет.
Если нужно быстро и бесплатно сгенерировать изображение по промту на русском языке — то берем Kandinsky «Сбера», если необходимо высокое качество и настраиваемое разрешение — то нам к Midjourney, а за созданием векторной графики для широкоформатной печати — к Firefly от Adobe и так далее.
А куда обращаться, если нам потребуется реалистичное изображение не по запросу, а по наброску с определенной композицией и расположением предметов — только к дизайнерам? Разумеется, у мира инноваций есть что ответить и на такой запрос — это нейросеть Stable Diffusion студии Stability.ai. Рассказываем о ней подробнее.
Stable Diffusion: чем выделяется на фоне остальных?
Stable Diffusion представляет собой генеративную нейронку с открытым исходным кодом. Она позволяет генерировать изображения, в общем-то как и остальные подобные инструменты, по текстовому запросу, а также по нарисованному от руки чертежу или любому другому наброску.
Инструмент построен на базе «скрытой диффузионной» модели, которая обучалась несколько иначе, чем другие нейросети, предназначенные для генерации картинок. А именно, обучение происходило поэтапно. Сначала нейросеть осваивала навык удаления лишних фрагментов из изображения — шаблона, а после чего уже и выдавала итоговый результат. Обычно диффузионные модели применяют для работы с синтезом речи и трехмерной графикой.
Нейросеть использовала для обучения подборку из 5 млрд изображений из датасета LAION-5B, которые в принципе доступны в сети. Согласно анализу Waxy, большинство изображений были взяты с таких источников, как Getty Images, DeviantArt и Pinterest. Вместе с тем, модель использовала для обучения банк из большого количества высокопроизводительных графических процессоров, вроде Nvidia A100.
Ключевой особенностью нейросети компания называет именно открытый исходный код с лицензией Creative ML OpenRail-M. Благодаря ему, как сообщается на сайте, инструмент можно интегрировать в различные приложения, где так или иначе подразумевается работа с изображениями. В числе таких уже программа по 3D-моделированию Blender, а также веб-редактор презентаций Canva. Более того, инструментом возможно пользоваться и оффлайн — через SD на компьютерном устройстве, а не через облачные онлайн-сервисы.
На текущий момент эта нейронка считается одной из самых продвинутых генеративных инструментов. Она способна создавать качественные изображения в сотне стилях, притом быстро и практически без ошибок. Однако так было не всегда.
Первую версию Stable Diffusion мир увидел еще летом 2022 года. К тому моменту ее представили как бесплатный инструмент, который умеет создавать хоть и достаточно посредственные изображения, но все же в различных стилях, а также способен редактировать в процессе объекты и даже дорисовывать фон.
Обучение нейросети проходило на GPU-сервере, который спроектирован и настроен специально для выполнения вычислений, которые связаны с графическими процессами. После чего разработчики задействовали технологию CLIP для обучения генерации готовой композиции в один этап. Это же позволило обучить новый инструмент построению ассоциативных рядов между текстом и изображениями.
Примечательно, что уже в анонсе первой модели компания намекнула, что это первичные наработки — то есть базовая версии, на основе которой в ближайшее время выйдут новые, более проработанные и улучшенные модели нейросети.
«В ближайшее время будут активированы дополнительные функциональные возможности и доступ к API, включая поддержку локального графического процессора, анимацию, многоступенчатые рабочие процессы и многое другое», — заявлялось в пресс-релизе.
И не будем затягивать — нас не обманули. Осенью того же года компания запустила улучшенную версию Stable Diffusion 2.0. В ней уже возможно было создавать более качественные изображения с разрешением 2048x2048 пикселей и выше, а также сгенерировать полноценные цифровые арты.
Согласно пресс-релизу второй версии, открытый исходный код нейросети позволяет интегрировать инструмент в различные приложения, сайты и другие веб-проекты. К тому же, нейросеть научилась созданию не только удачных пейзажей, но и более детализированных изображений, вроде портретов и продуктовых картинок.
Однако новая версия не стала неким продолжением предыдущей, как предполагали пользователи. Напротив, ее буквально создали с чистого листа.
Так, Stable Diffusion 2.0 обучалась на дататесте LAION-5B и новом текстовом кодировщике OpenCLIP от LAION и самой компании Stability AI. Благодаря такому многоступенчатому обучению удалось значительно улучшить качество создаваемых нейросетью изображений, ограничить генерацию «взрослого» и незаконного контента. Помимо того, при работе с изображениями модель стала учитывать не только текстовый промпт, но и данные о глубине предметов и объектов на исходных кадрах.
В компании также отметили, что был сделан акцент именно на оптимизации нейросети для работы на одном GPU. Так инструмент стал доступен большему числу пользователей, а исходники нейросети — открытыми для общего доступа.
С помощью нейросети пользователи начали генерировать полноценные визуальные проекты, вроде покадровый анимации, локаций и объектов для видеоигр, а также дизайна веб-ресурсов.
Буквально за месяц с момента запуска в сети появилось множество изображений, которые были созданы в новой версии нейросети. И, как отмечают в VC.ru, пользователи сгенерировали особенно потрясающую игровую графику, а также смогли модернизировать «детские каракули» в качественные иллюстрации.
Stable Diffusion 3: что потенциально новое появилось в свежей версии нейросети
В феврале 2024 года Stability AI представила релиз уже третьей модели своей нейросети. Как утверждается в их исследовательской статье, Stable Diffusion 3 построена на базе новой архитектуры Multimodal Diffusion Transformer (MMDiT) — она позволила улучшить распознавание текста и возможности его обработки по сравнению с предыдущими моделями нейросети.
Новая версия также вбирает в себя целый набор моделей машинного обучения, включая от 800 млн до 8 млрд параметров. Такой подход предоставляет пользователям и сторонним разработчикам возможность использования нейронки на любых устройствах, включая даже слабые и с ограниченной вычислительной мощностью. Компания нацелена на то, чтобы сделать инструмент максимально доступным для пользования.
Также заявляется, что новая версия вполне может превзойти все современные генеративные нейросети в рамках работы с текстовыми запросами. Даже таких гигантов, как DALL-E и Midjorney.
«Анонсируем Stable Diffusion 3 в ранней предварительной версии, нашу самую функциональную модель преобразования текста в изображение со значительно улучшенной производительностью в тематических подсказках, качеством изображения и возможностями правописания», — заявляет компания.
Какие обновления Stable Diffusion 3 были представлены еще?
— Улучшенная система рендеринга текста — это ключевая возможность новой версии. Теперь, как мы уже отметили выше, нейросеть стала лучше понимать текст и, соответственно, реже ошибаться. Однако пока что это распространяется только на английский язык.
— Поддержка технологии многосубъектного промпта. То есть, обновленная версия нейросети не просто генерирует изображения на основе описания, но и качественно вписывает необходимые объекты в пространство — добавляет тени, отражения и различные блики к предметам. Это, конечно, улучшает изображения и делает их более реалистичными.
— Обновленная система безопасности. В анонсе также подчеркнули, что новая версия теперь и с повышенной безопасностью. Так, в нейросети не получится создать изображения, в которых фигурирует насилие, нарушение законов, а также фейки.
Разработчики поделились несколькими изображениями, сгенерированными при помощи новой модели. Все они яркие, запоминающиеся, с высоким качеством и детализаций.
На текущий момент обновленная версия нейросети пока не доступна для пользователей, но открыт лист ожидания на официальном сайте. Для широкой публики Stable Diffusion 3 компания обещает открыть уже в ближайшее время.