Aigital: как стартап из России помогает создавать контент с использованием нейросетей

5 мин.

+28

Наш сервис Aigital — это платформа для генерации текстов и изображений под маркетинговые задачи. Для решения каждой из них есть навыки, внутри которых вшиты сложные промпты и сет настроек. С помощью разработки навыков мы упрощаем и совершенствуем пользовательские процессы создания текстового и иллюстративного контента.

Синергия нейросетей как основа сервиса

В основе сервиса лежит сочетание нескольких нейросетей. В первую очередь мы используем ChatGPT для обработки естественного языка и генерации текста под разные задачи, будь то написание статей или рекламных сообщений.

ChatGPT мы используем и для иллюстративных навыков. Для генерации изображений — ряд нейросетей, включая ведущие Midjourney и Stable Diffusion. Синергия ChatGPT и text-to-image нейросетей позволяет сформировать более детальные запросы для генерации графики, соответственно, получать более качественные результаты. При этом пользователь не тратит время, выдумывая, что и как нарисовать.

Мы работаем над подключением других LLM-моделей, таких как Lama2 от Meta* и YandexGPT от «Яндекса». А для графических навыков — над подключением натренированных LoRa для более детальных запросов, например, создания логотипов, стикеров, маскотов, фирменного стиля сайта, обложек книг. Эти модели обучены на определенном наборе данных. Они вносят дополнительные изменения в процесс генерации, обеспечивая более точное соответствие результата конкретному запросу из описания пользователя. Так, для навыка создания логотипов мы обучаем наши LoRa не просто на 10 000 лого, которые спарсили из интернета. Наши промпт-инженеры вручную отбирают качественные примеры, как сгенерированные другими нейронными сетями, так и реальные лого. Соответственно, навык будет уметь генерировать только логотипы, но именно их он будет реализовывать лучше, чем нейросеть без надстроек.

Кроме того, text-to-image нейросети пока генерируют текст как дислексик. В связи с этим мы продумываем систему, которая будет сначала генерировать текст, а потом на эту маску накладывать красочные изображения — это поможет решить вопрос с текстовыми логотипами, а также креативами для сайта.

Детальная проработка промптов

При создании навыков тестируем промпты, пока не получим уникальный и приемлемый с точки зрения качества ответ. Мы не используем односложные запросы формата «переведи текст». Если брать в качестве примера разработку навыка перевода, мы надстраиваем в запросе большой ряд рекомендаций, чтобы результат соответствовал речевым нормам языка перевода, а смысл переведенного текста в максимально возможной степени был эквивалентен оригиналу. Такая же сложная надстройка происходит и при создании других навыков.

Результат текстовой генерации можно доработать или изменить в чате, описав нейросети задачу. Для каждого результата вшита возможность перевести текст на английский, французский, испанский, итальянский и немецкий языки в два клика.

Навыки генерации изображений работают вместе с ChatGPT. То есть, прежде чем запрос уйдет в Midjourney или Stable Diffusion, он будет переписан внутри навыка текстовой нейросетью. Откликаясь на ключевые слова в запросе, ChatGPT подставляет более подробное текстовое описание для text-to-image нейросети.

Например, в навыке «Иллюстрация в фото стиле» при указании в запросе Award winning photography ChatGPT заменяет это словосочетание на конкретные характеристики снимка начиная с диафрагмы, заканчивая моделью фотоаппарата.

Автоматическая подстановка модели фотоаппарата и характеристик снимка по стилистическому запросу Award winning photography в навыке «Иллюстрация»

Пользователь может увидеть переписанный промпт под сгенерированной картинкой, скопировать его в поле запроса и скорректировать. Это удобно, когда пользователю понравился результат генерации, и он хочет изобразить другой объект в том же стиле.

Автоматическая доработка промпта текстовой нейросетью в навыке «Иллюстрация»

В качестве запроса можно использовать текст, для которого нужна иллюстрация, например, пост в соцсети, статью или песню. На основе этого текста ChatGPT придумывает идею, добавляет стилистические параметры, и это расширенное описание передается в Stable Diffusion или Midjourney. На выходе получается уникальное изображение, которое соответствует идее текста и передает его эмоцию. При этом, глядя на иллюстрацию, иногда не представляешь, какой промпт нужно написать, чтобы получить подобное.

Общественное восприятие нейросетей и другие сложности

Пока наибольшей сложностью для нас остается внедрение нейросетей в мир. Когда ты погружен в технологии, кажется, что нейросетями пользуется уже каждый, но это далеко не так. У людей по-прежнему есть страхи и недопонимание, как и зачем с ними работать. Мы создаем сервис, чтобы упростить пользователю переход к работе с нейронками, а в блоге рассказываем, какие задачи решают представители разных профессий с помощью Aigital.

В то же время мы пока что уязвимы, поскольку являемся прослойкой между пользователем и нейронками. Если какая-то проблема происходит в конечном звене — на стороне Midjourney или ChatGPT, пользователь предъявляет претензии нам, но мы при этом ничего не можем сделать. Зависимость от нейронок заключается еще и в невозможности подключить востребованные text-to-image нейросети из-за того, что у них нет API. Сейчас мы в процессе перехода на нейросети, которые будут храниться и обрабатываться у нас на серверах. Это позволит обеспечить больший контроль над данными и оперативное предупреждение и устранение сбоев.

Узконаправленные навыки, маркетплейс и совершенствование сервиса

Несмотря на то что для ChatGPT есть миллионы промптов, мы хотим использовать только самые актуальные, соответственно, сейчас мы заняты приоритизацией навыков. Мы наблюдаем за развитием других похожих сервисов и видим, что чем больше опций в них появляется, тем хуже. У нас есть представление об оптимуме количества навыков, после превышения которого пользователь уже не может разобраться, как найти тот, что нужен ему.

В рамках приоритизации мы будем создавать более узконаправленные и утилитарные навыки для маркетинговых задач. Поскольку их станет несколько больше, чем сейчас, появится интеллектуальная система, которая будет самостоятельно подбирать навык под определенную задачу пользователя. Помимо интеллектуального поиска, планируем разработку системы «визардов» — комплексных навыков, которые будут включать меньшие. Например, визард для создания статей будет включать генерацию идей, плана, текста разделов и иллюстраций к статье.

Многие сходные сервисы думают преимущественно о масштабировании навыков, но мало кто — о работе с готовым контентом. Сейчас мы меняем главный экран рабочей среды, добавляем поиск по генерациям. Еще одна интересная разработка для пользователей — маркетплейс навыков. В нем можно будет самостоятельно создавать навыки под свои задачи, а в дальнейшем делиться ими с другими пользователями.

Все это — постепенные улучшения. Мы не говорим о каком-то прорыве, и не стремимся сделать второй Midjourney. Мы просто стараемся сделать утилитарный сервис для конкретных профессий — маркетологов, креативщиков агентств, копирайтеров. Мы хотим дать пользователю выбор стилистики, более подходящей для его рабочих задач, и в этом нам помогает гибкость команды. Мы стартап, и структура нашей компании только сейчас формируется. Пока каждый человек в команде выполняет несколько функций, если нужно — пишем промпты, изучаем рынки, создаем интерфейсы, ищем API, а также рассматриваем идеи друг друга и часто обсуждаем наши цели. Это важная практика для растущего проекта.

*Meta признана экстремисткой организацией в России

1808
0
0

Анастасия

+28

0 комментариев

Все комментарии проходят модерацию по правилам портала