Чудо-хамелеон: Meta* представила новую мощную модель генерации изображений CM3leon

Компания наращивает усилия в области искусственного интеллекта, пытаясь обогнать конкурентов — Google, Microsoft и OpenAI. Ее новая ИИ-модель сможет создавать изображения из текстовых подсказок.

6 мин.

maxkatr53m536

14 июля гигант социальных сетей Meta представил CM3leon — новую модель преобразования текста в изображение (произносится так же, как английское слово chameleon — «хамелеон»). Создатели утверждают, что эта новая ИИ-модель «с непревзойденной эффективностью» создает изображения из текстовых подсказок. Пока CM3leon недоступна для тестирования или коммерческого использования.

Возможно, утверждение о «непревзойдённой эффективности» CM3leon — не просто рекламный ход. Модель действительно знаменует собой прорыв в возможностях искусственного интеллекта Meta. Она может не просто генерировать высококачественные изображения из текстовых описаний, но и создавать логически не противоречивые подписи к существующим изображениям. Тем самым CM3leon закладывает основу для более продвинутых будущих моделей распознавания изображений.

На что способен Хамелеон?

Meta продвигает CM3leon с помощью своей внушительной команды специалистов по данным и передовой вычислительной инфраструктуры.

Большинство современных генераторов изображений, в том числе DALL-E 2 от OpenAI, Imagen и Stable Diffusion от Google используют процесс, известный как диффузия. В рамках этого процесса модель учится постепенно вычленять «шум» из начального изображения, которое полностью состоит из «шума», и шаг за шагом приближает изображение к целевому показателю.

Конечный результат впечатляет, но метод диффузии требует больших вычислительных ресурсов. Это делает его дорогостоящим в эксплуатации и настолько медленным, что большинство приложений реального времени на его основе непрактичны.

Модель CM3Leon, напротив, использует механизм под названием «внимание», для оценки релевантности входных данных, таких как текст или изображения. «Внимание» и другие архитектурные особенности преобразователей могут повысить скорость обучения модели и упростить параллелизацию моделей. Иначе говоря, все более и более крупные трансформеры можно обучать, значительно увеличивая вычислительные мощности, что вполне достижимо.

Представители Meta утверждают, что эффективностью CM3Leon превосходит большинство трансформеров. Хамелеону требуется в пять раз меньше вычислительной мощности и меньше обучающих данных.

Для обучения CM3Leon Meta использовала набор данных из миллионов лицензированных изображений Shutterstock. Самая мощная из нескольких версий CM3Leon, созданных Meta, имеет 7 миллиардов параметров — в два с лишним раза больше, чем у DALL-E 2. Параметры — это части модели, созданные на основе обучающих данных; фактически, именно они определяют способность модели генерировать текст — или, в данном случае, изображение.

Один из ключевых факторов высокой производительности CM3Leon — метод под названием «контролируемая тонкая настройка» (Supervised fine-tuning; SFT). SFT очень эффективно использовался для обучения модели генерации текста ChatGPT от OpenAI, но Meta предположила, что он может быть полезен и в деле генерации изображений. И действительно — более точная настройка инструкций улучшила производительность CM3Leon в процессе создания не только изображений, но и подписей к ним. Это позволило модели отвечать на вопросы об изображениях и редактировать изображения, следуя текстовым инструкциям (например, «изменить цвет неба на ярко-синий»).

Похоже, что CM3leon лучше справляется со сложными объектами и ограниченностью текстовых подсказок, чем такие модели, как DALL-E 2 от OpenAI и даже Midjourney. Изображения от CM3leon, которые показала Meta, свидетельствуют, что ее новый генератор преобразования текста в изображение способен точно отображать анатомию человека и даже может создавать точный текст — никаких нелепых случайных слов в его изображениях нет.

Большинство генераторов изображений плохо справляются со «сложными» объектами и текстовыми подсказками, включающими слишком много ограничений. Но CM3Leon свободна от этого недостатка. Демонстрируя способности модели, Meta попросила CM3Leon сгенерировать изображения, используя такие подсказки, как «Маленький кактус в соломенной шляпе и неоновых солнцезащитных очках в пустыне Сахара», «Фото человеческой руки крупным планом, модель руки», «Енот, главный персонаж аниме, готовящийся к эпической битве с самурайским мечом» и «Стоп-знак в стиле фэнтези с надписью «1991».

Чтобы сравнить возможности двух моделей, автор издания TechCrunch использовал те же подсказки для DALL-E 2:

Некоторые результаты оказались приблизительно такими же, но изображения CM3Leon в целом более точно следовали подсказкам, и были более детальными. Самым наглядным примером такой детализации стали дорожные указатели:

CM3Leon также понимает инструкции по редактированию существующих изображений. Например, в ответ на просьбу «создать высококачественное изображение комнаты, в которой есть раковина, зеркало и бутылка», модель создала нечто визуально связное и, по выражению Meta, «контекстуально подходящее» — изображение комнаты, раковины, зеркала, бутылки. В отличие от CM3Leon, DALL-E 2 совершенно не улавливает нюансы подобных подсказок, иногда полностью опуская объекты, указанные в подсказке.

И, конечно, в отличие от DALL-E 2, CM3Leon может следовать ряду подсказок, создавая короткие или длинные подписи и отвечая на вопросы о конкретном изображении. В этих направления, утверждает Meta, модель работает лучше, чем даже специализированные модели создания подписей к изображениям (например, Flamingo, OpenFlamingo).

Кроме того, CM3leon создает достаточно совершенные изображения, которые позволяют пользователям более точно реализовывать их желания: преобразовывать текст в изображение или изображение в изображение, осуществлять структурно-ориентированное редактирование изображения, преобразовывать объект в изображение, преобразовывать сегментацию в изображение и масштабировать изображение в сверхвысоком разрешении. Эти лишь часть функций, которые недоступны в любом ином генераторе, кроме Stable Diffusion с использованием Controlnet.

Слухи о новой модели естественного языка

По данным источников, на которые ссылается издание Financial Times, Meta также планирует выпустить коммерческую версию своей модели естественного языка LLaMA для сторонних разработчиков. Если это правда, такой шаг позволит стартапам и компаниями создавать кастомизированные приложения на базе искусственного интеллекта Meta. Таким образом, Meta вступит в прямую конкуренцию с ChatGPT (OpenAI-Microsoft), Bard (Google) и Claude v2 (Anthropic-Google).

Похоже, что Meta начинает концентрироваться на искусственном интеллекте во всех своих приложениях, хотя компания заявляет, что также активно развивает свои проекты метавселенной. Ранее в этом году компания создала специальное подразделение во главе с директором по разработке программных продуктов Крисом Коксом. Оно будет заниматься продвижением генеративного ИИ. Параллельно Meta создает инструменты ИИ, генерирующие более качественную рекламу для целевой аудитории.

Запуская модели с открытым исходным кодом, такие как LLaMA LLM (самая продвинутая в мире большая языковая модель с открытым исходным кодом), Meta стремится стимулировать разработчиков улучшать технологию. Подобный подход отличает компанию от OpenAI и других конкурентов, которые создают закрытое ПО. Тем не менее, в будущем компания может монетизировать свои модели.

Рост активности компании в сфере ИИ происходит на фоне проблем, с которыми сейчас сталкивается Meta: цена ее акций падает, ведутся горячие дебаты по вопросам конфиденциальности и дезинформации на Facebook, которая остается крупнейшей платформой компании. CEO компании Марк Цукерберг считает, что крупные инвестиции в генеративный ИИ находятся в гармонии с проектом метавселенной и могут привести к возникновению новых источников прибыли.

Недавно Meta запустила клон Twitter под названием Threads. Новый проект привлекает пользователей быстрее, чем ChatGPT после своего запуска. Сильная сторона компании Meta — умение улучшать ключевые элементы уже существующих технологий и на их основе создавать продукты, способные успешно конкурировать с аналогами от соперников на том самом «поле», которое эти соперники и создали.

Похоже, что метавселенная от Meta не слишком впечатлила потенциальных инвесторов, и теперь компания вкладывает массу сил и средств в развитие искусственного интеллекта. В гонку за лидерство в сфере генеративного ИИ вступил новый участник.

*признана в России экстремистской организацией и запрещена

0

Все комментарии проходят модерацию по правилам портала

На что способен Хамелеон?

Слухи о новой модели естественного языка

Комментарии

0