• нейросети
  • статьи
  • 22 июл. 24

Все, что нужно знать о новой версии нейросети от Сбера — Kandinsky 2.2

Сбербанк запустил новую версию своей нейросети, с помощью которой можно создавать реалистичные изображения и даже стикерпаки. Рассказываем, что за Kandinsky 2.2 и чем отличается от конкурентов.

  • 1211
  • 0
  • 1
ulyana.proskunova
  • рейтинг +13
  • подписчики 11

В июле 2023 года Сбербанк запустил новую, улучшенную версию своей нейросети, с помощью которой можно создавать фотореалистичные изображения на основе текстового описания. Всего за сутки с момента запуска Kandinsky 2.2 пользователи создали около 1 млн уникальных изображений, сообщила пресс-служба компании. 

Прежде чем перейти к обзору возможностей нового продукта, расскажем, что вообще представляет из себя нейросеть и чем она отличается от конкурентов вроде Midjourney.

Кто такой этот ваш Kandinsky?

В ноябре 2022 года Сбербанк представил первую версию своей нейросети Kandinsky 2.0. Более того, новая сеть стала и первой российской диффузионной моделью для создания изображений.

Метод диффузии получил особую популярность в качестве одного из востребованных подходов к генерации — его используют такие популярные сервисы, как DALLE 2, Midjourney, imagen и другие актуальные модели того года.

Суть таких нейронок в том, что они сначала портят изображение с помощью зашумления, а после восстанавливают его, генерируя новое. Грубо говоря, диффузионные модели сначала делают «белый шум», чтобы потом на основе текстовых запросов и кодов создать то, что попросит пользователь. 

Вместе с тем, при разработке модели были использованы мультилингвальные энкодеры — это целый спектр устройств для оптического считывания сигналов. В результате чего, как сообщает источник, модель обучилась распознаванию запросов на 101 языке или на комбинации из этих языков.

Генерация изображения Kandinsky 2.0 на двух разных языках / habr.com
Генерация изображения Kandinsky 2.0 на двух разных языках / habr.com

Помимо возможности создавать изображения по промту на одном из сотни языков, нейросеть была обучена восстановлению поврежденных изображений и «дорисовыванию» недостающих частей, расширению контента изображений и генерации полноценных шедевров из уже имеющегося наброска.

Нейронка, к слову, получила свое название в честь Василия Васильевича Кандинского — русского художника, основателя абстракционизма. И это было сделано не просто так. Основная задумка нейросети у разработчиков — это показать художникам и дизайнерам, что нейросети — это не враги, а, напротив, вдохновители творцов и помощники в создании уникальных шедевров. «Будущее явно за творческим тандемом человека и AI», — поделился «Сбер» в своем блоге. 

В этот же период на свет начали выходить новые инновации из мира генеративных нейросетей. К примеру, ControlNet, GigaGAN, GLIGEN и Instruct Pix2Pix, которые предлагали новые подходы к созданию изображений. СберБанк также понимали, что необходимо совершенствовать модель и внедрять новые технологии, чтобы оставаться на плаву.

Так, в апреле 2023 года команда исследователей Sber AI при поддержке ученых из Института искусственного интеллекта AIRI выпустили обновленную версию нейронки — Kandinsky 2.1

Нейросеть от «Сбера» стала одним из самых быстрорастущих сервисов искусственного интеллекта в мире, сообщили разработчики. Новая модель набрала 1 млн уникальных пользователей всего за 4 дня. Это на день меньше, чем результат сервиса ChatGPT, которому потребовалось пять дней для того же количества пользователей. 

В Kandinsky 2.1, по сравнению с ее предшественником, значительно увеличилось количество параметров и в целом возможности генерации. По словам разработчиков, теперь модель создает еще более реалистичные и детализированные изображения, в которых качественно переданы различные тени, отражения и текстуры. 

Генерация изображения Kandinsky 2.1 по запросу «Эйнштейн в космосе, окруженный логарифмической схемой»  / cloud.ru
Генерация изображения Kandinsky 2.1 по запросу «Эйнштейн в космосе, окруженный логарифмической схемой» / cloud.ru

А основным отличием новой версии от основных конкурентов нейронки, вроде Midjourney и DALL-e, стало умение различать более сотни языков и возможность генерации сразу на нескольких платформах. 

Kandinsky 2.2 — свежая версия нейросети от Сбербанка

Итак, спустя три месяца, компания анонсировала новую версию модели «Кандинского». Она стала, по сравнению с предыдущей, понятливее — генерация по запросам проходит довольно точно, а готовые изображения получаются качественнее, да еще и с более высоким разрешением. 

Об этом сообщили ТАСС со ссылкой на сообщения пресс-службы компании. «В новой версии генеративной модели удалось добиться более высокого разрешения изображений. Также появилась возможность изменять соотношение сторон при генерации. Значительного прироста качества удалось достигнуть при создании портретов. Для дообучения нейросети использовался датасет в размере 1,5 млрд пар «текст — изображение». Это на 300 млн больше, чем в предыдущей версии», — поделились разработчики.

Источник: sberbank.com
Источник: sberbank.com

Что может Kandinsky 2.2?

А если подробнее, то у новой версии разработчики отмечают целый ряд новшеств, которые непременно выделяют нейросеть не только на фоне ее предыдущих версий, но и глобальных конкурентов на рынке цифровых технологий. Как поделился Александр Ведяхин, заместитель председателя компании, «нейросеть уже не просто пытается подражать творчеству человека, а способна создавать новые художественные смыслы и интерпретации». 

Как и предыдущую версию, Kandinsky 2.2 можно использовать на большом количестве платформ. В числе таких тестовый сайт команды fusionbrain.ai, официальный телеграм⁠-⁠бот, в котором доступны все четыре режима генерации, сайт самой первой версии нейросети Rudalle, сайт Сбера, бот во «Вконтакте», а также в мобильном приложение «Салют» и на умных устройствах компании.

Большим преимуществом нейронки в первую очередь является то, что она находится в открытом доступе, так что попробовать ее любому человеку можно совершенно бесплатно. Этим мы сейчас и займемся — протестируем новые фичи Kandinsky 2.2 в деле. 

— Нейросеть предлагает установить разное соотношение сторон. Если с прошлыми версиями был доступен только формат 1:1, то сейчас же можем выбрать и 16:9, и 9:16, и 3:2, и 2:3. 

Источник: fusionbrain.ai
Источник: fusionbrain.ai

— Сбербанк же одним из главных своих достижений называет возможность генерации фотореалистичных изображений. Об этом разработчики сообщают буквально в первых строчках своих блогов. А лучше видно разницу, согласно источнику, при создании портретов. Вместе с тем, в нейронку добавили новые стили — теперь можно не только в реалистичном стиле генерировать, но и в том же киберпанке, к примеру. 

Генерация изображение Kandinsky 2.2 по запросу «Красный кабриолет на фоне заката в стиле киберпанк» / fusionbrain.ai
Генерация изображение Kandinsky 2.2 по запросу «Красный кабриолет на фоне заката в стиле киберпанк» / fusionbrain.ai

— Но что действительно приятно радует, так это структурный блок ControlNet, который позволяет расширять границы сгенерированного изображения, переносить стиль либо корректировать определенный фрагмент фото. Это немного похоже на то, как работает Generative Fill в Photoshop: можно наложить на сгенерированное изображение рамку, ввести запрос и нейросеть дорисует картинку так, как попросит пользователь. 

Перенос стиля фотореализм на изображение, сгенерированное по запросу выше / Telegram-бот
Перенос стиля фотореализм на изображение, сгенерированное по запросу выше / Telegram-бот

Однако функция пока работает не идеально, а сама нейронка часто допускает визуальные ошибки, как, например, на получившемся у нас фото — кабриолет в квартире. Помимо того, фича не доступна на всех платформах нейросети. Ее можно попробовать лишь на сайте Rudalle, на сайте Сбера и в Telegram-боте.

— «Кадинский» предлагает вариации уже имеющегося или сгенерированного изображения. То есть, если добавить фотографию и задать параметр «Вариации», то можно получить несколько стилизованных изображений, притом с конкретно заданным разрешением.  

Предложений вариант изображения Kandinsky 2.2 / Telegram-бот
Предложений вариант изображения Kandinsky 2.2 / Telegram-бот

— Одной из нашумевших функций версии, которая точно отличает нейронку от других моделей на рынке, стала возможность генерации стикеров в Telegram. Иными словами, Kandinsky 2.2 способен создать по текстовому запросу индивидуальные наклейки, из которых пользователи могут собирать полноценные стикерпаки в мессенджере. 

Генерация стикера и создание стикерпака по запросу «Красный кабриолет» Kandinsky 2.2 / Telegram-бот
Генерация стикера и создание стикерпака по запросу «Красный кабриолет» Kandinsky 2.2 / Telegram-бот

Итак, Kandinsky 2.2 способен понимать запросы на сотне языках, рисовать более чем в 20 стилях, смешивать несколько рисунков, стилизовать и 

создавать арты в разных форматах и режимах. Очевидно, что делает это все нейросеть пока не безупречно — все режимы генерации доступны не на каждой платформе, а также часто возникают ошибки из-за «высокой нагрузки» сервера.

Но сам процесс генерации достаточно прост и это безусловно большой плюс  — картинку сможет создать любой человек, даже далекий от цифровых технологий. На официальном сайте компания приводит небольшую формулу для составления промпта — объект + фон + стиль. Кроме того, запрос должен быть как можно более детальным и содержать в описании конкретные предметы, а не абстрактные понятия.

  • 1211
  • 0
  • 1