• нейросети
  • статьи
  • 17 апр. 24

Бесплатная генерация изображений, запросы на русском языке и улучшенная детализация: возможности нового DALL-E 3 от OpenAI

Разбираемся, какие новые фичи представлены в DALL-E 3 и чем нейронка действительно может похвастаться на фоне конкурентов.

  • 354
  • 0
  • 0
ulyana.proskunova
  • рейтинг +13
  • подписчики 11

Ни для кого уже не секрет, что нейросети, позволяющие улучшать и генерировать изображения, уже не просто набирают популярность, а более того, прочно обосновываются в нашей жизни.

Для многих подобные платформы представляют собой источники креатива в рамках дизайна, рекламы и в принципе всевозможного цифрового контента. Любой желающий может воспользоваться одним из десятков сервисов, чтобы быстро и порой даже бесплатно сгенерировать изображение на любой вкус и цвет. Среди таких особо пользуются спросом Midjourney, Kandinsky от SberAI, «Шедеврум» от «Яндекса» и DALLE-E от гиганта ИИ-технологий OpenAI. На последнем мы и остановимся в этой статье.

В конце 2023 года OpenAI анонсировали улучшенную версию нейросети и заявили, что в ближайшее время намерены интегрировать генератор в ChatGPT. Согласно пресс-релизу, DALL-E 3 (это и есть последняя версия нейросети) нацелена на более релевантное понимание запросов, анализ громоздких инструкций и создание «чрезвычайно детальных и точных изображений» по сравнению со своим предшественником.

А что касается конкурентов, то, если верить заявлениям компании, у DALL-E 3 и вовсе равных нет.

«Современные генераторы изображений зачастую игнорируют слова и описания, вынуждая пользователей изучать промпт-инженерию. DALL-E 3 представляет собой шаг вперёд в нашей способности создавать изображения, которые точно соответствуют предоставленному вами запросу», — сообщается в описании новой версии нейросети.

Разбираемся, какие новые фичи представлены в DALL-E 3 и чем нейронка действительно может похвастаться на фоне конкурентов.

Что за зверь этот ваш DALL-E?

DALL-E — генеративная нейронная модель, разработанная для генерации высококачественных изображений на основе промпта.

Название нейросети сочетает в себе имя известного художника Сальвадора Дали и имя робота Wall-E из мультфильма от Pixar. Идея разработчиков заключалась в том, чтобы отразить некую коллаборацию произведений искусства и современной цифровой анимации.

Она запущена еще в начале 2021 года компанией OpenAI, которая когда-то прославилась на разработке крупнейшего на текущий момент чат-бота ChatGPT.

К слову, при генерации изображений нейросеть использует модель GPT. Она выполняет роль своего рода расшифровщика данных, которые получает от пользователей. DALL-E обучалась на миллионе изображений и даже подписей к ним при исследовании взаимосвязи.

Нейросеть обладает способностями генерации реалистичных изображений в различных стилях и интерпретациях.

Источник: openai.com
Источник: openai.com

Улучшенная версия нейросети была представлена в апреле 2022 года. И, в отличие от оригинальной модели, DALL-E 2 смогла продемонстрировать улучшенные возможности в рамках создания изображений, которые более точно соответствовали пользовательским промптам. Притом разрешение сгенерированных картинок стало выше в 4 раза.

Помимо того, новая модель научилась лучше понимать человеческий язык и, соответственно, продуктивнее работать и с более сложными запросами. Отметим, что DALL-E 2 стала доступна через браузер, API и лабораторию.

Источник: onenai.com
Источник: onenai.com

Последнюю версию нейросети под названием DALL-E 3 компания презентовала сравнительно недавно — в апреле 2023 года, а доступ к ней открыла только к октябрю того же года.

Новая модель DALL-E также построена на модели глубокого обучения — генеративной контрактивной сети, позволяющей генерировать изображения и грамотно оценивать их качественность.

Ключевое отличие данной версии от своих предшественниц заключается в более глубоком обучении — за несколько лет, начиная с 2021 года, нейросеть успела почерпнуть огромный массив данных. Поэтому теперь минимизирует ошибки при работе с изображениями, а также более корректно и точно принимает во внимание любые детали текстового запроса.

Особенности DALL-E 3: чем может похвастаться новая версия

Нейросеть теперь встроена в подписки ChatGPT Plus и Enterprise

При введении промпта в нейросети чат-бот может давать индивидуальные подсказки пользователям: как лучше составить запрос, что из него убрать или, наоборот, как дополнить для получения наиболее подходящего изображения. Так, к примеру, если пользователю понравилось изображение, но некоторые детали в нем все же хотелось бы доработать, то он может обратиться за помощью к ChatGPT. А он, уже в свою очередь, адаптируется к предпочтениям и самостоятельно внесет изменения.

Помимо того, нейросеть научилась понимать большие запросы и обладает возможностью полностью их обработать, не забывая о важных деталях.

Источник: openai.com
Источник: openai.com

— Нейросеть стала более безопасной

Новая модель также отличается от предшественниц повышенными мерами безопасности в рамках пользовательских запросов. Теперь она отклоняет запросы на генерацию изображений по запросу общественных деятелей и звезд, а также «вредных предубеждений», которые могут распространять пропаганду и дезинформацию.

Вместе с тем, нейросеть не будет генерировать изображения в стиле современных художников, чтобы не представлять им какую-либо конкуренцию и не отнимать у них работу, чего боится большинство современных артистов.

Художники теперь также могут заполнить форму на запрет использования своих работ для обучения моделей DALL-E.

— Улучшенные возможности генерации изображений

Многоступенчатое обучение DALL-E 3 явно не прошло даром. Нейросеть научилась более релевантно создавать изображения, учитывая все нюансы промпта, в частности желаемое расположение объектов по отношению друг к другу и композиции в целом, а также детализацией. С последним, нужно отметить, в предыдущих версиях случались проблемы - нейросеть зачастую генерировала объекты с неестественными пропорциями, а людям добавляла лишние пальцы или даже целые конечности. Теперь же и такие детали нейросеть учитывает, поэтому изображения получаются более реалистичными.

А работа со сложными пользовательскими вопросами теперь ведется так: нейросеть дробит их на несколько, что позволяет более комплексно подходить к созданию изображения.

— Нейросеть теперь поддерживает и русский язык

В отличие предыдущих версий, для которых запросы приходилось писать на английском, DALL-E 3 поддерживает множество языков, в частности и русский. Это гораздо облегчит работу с генерацией российским пользователям.

— Открытый доступ к DALL-E API

Новый инструмент модели позволяет различным сторонним разработчиком интегрировать нейросеть в свои программы. К слову, такой возможностью уже успели воспользоваться в компании CALA — сервис, нацеленный на генерацию дизайна одежды по текстовым запросам.

Источник: openai.com
Источник: openai.com

И главное преимущество — это доступность. На текущий момент для использования DALL-E 3 не нужно мощное устройство. Сгенерировать изображения возможно и бесплатно через веб-платформу Bing Images Creator, в платном тарифе ChatGPT или же прямо через боковую панель браузера Microsoft Edge.

Попробуем сгенерировать приложение бесплатно — через Bing Image Creator

— Для начала переходим на веб-страницу инструмента через любой удобный браузер. Небольшая помарка: находясь в России без VPN не обойтись.

— Авторизируемся через учетную запись Microsoft или же заводим аккаунт с нуля.

— Пишем пожелания к изображению в промпте для нейросети и нажимаем на кнопку «Создать». Помимо того, нейросеть может создать запрос самостоятельно — в этом случае получим рандомно сгенерированное изображение.

Так, нейросеть самостоятельно представила запрос «a 3d cube shaped hamburger, digital art», по которому уже сгенерировала изображение:

Источник: bing.com
Источник: bing.com

По одному запросу модель генерирует четыре изображения с разрешением 519*519 пикселей каждое.

Ограничений на генерацию нет, более того, каждый день начисляется 25 «ускорений», которые позволяют создавать изображения буквально за несколько секунд. Но, нужно отметить, что в этом инструменте редактировать изображения или же изменить соотношение сторон не удастся. За более расширенными версиями — на текущий момент только в ChatGPT или Лабораторию.

В общем весь принцип работы с нейросетью остался тем же, что и с предыдущими версиями. Улучшения коснулись качества генерации, детализации, возможностей работы с текстом, а также некоторых ограничений для защиты от пропаганды и дезинформации.

  • 354
  • 0
  • 0