нейросети

статьи
28 июл. 24

Озвучка роликов, визуализация контента и говорящие головы: топ-5 нейросетей, которые генерируют видеоролики

В этой статье рассказываем о наиболее популярных и продвинутых нейросетях, с помощью которых можно сгенерировать полноценный качественный видеоконтент.

6 мин.

jedi_master

Генерация изображений за последние пару лет продемонстрировала колоссальный прогресс: мы теперь за пару кликов можем создавать картинки в любом нужном формате и стиле. Однако с видеороликами дела обстоят несколько иначе.

Многим встречались пугающие видео, на которых знаменитые личности уплетают еду. Понятное дело, что это не дело рук папарацци. Создателями сюрреалистичных роликов с искаженными лицами и мутирующими человеческими телами являются нейросети.

Так, в начале 2023 года пользователи активно обсуждали сгенерированные моделью Text2Video ролики с Илоном Маском, Вин Дизелем, Уиллом Смитом и многими другими звездами, которых нейросеть представила за трапезой. Несмотря на то, что в самом действии ничего страшного нет (знаменитости обедают самыми обычными блюдами, вроде спагетти и бургеров), выглядит это все же странно и даже жутко.

Упомянутая нейросеть и генерирует видеоролики на основе текстового промпта. Отметим также, что поверх видео наложен водяной знак фотобанка, на видеозаписях из которого модель обучалась.

И, несмотря на то, что на тот момент нейросеть со своей работой справилась плоховато, ругаться на нее все же не стоит — вспомним, как минимум, первые изображения — результаты работы генеративных нейросетей, вроде Midjourney и DALL-Е. Здесь сюрреализма и в принципе ошибок с неточностями было достаточно, поэтому вполне вероятно, что с видеороликами ситуация аналогичная — а сейчас они на начальном этапе своего развития.

Генерация видеоконтента на основе текстового написания (text-to-video) возникла в принципе сравнительно недавно, однако сейчас считается одним из самых стремительно развивающихся направлений машинного обучения. Так, к примеру, в 2022 году компании-гиганты Google и *Meta запустили сразу несколько алгоритмов (Imagen Video, Make-A-Video и Phenaki), которые генерируют небольшие видеоролики по текстовому описанию и даже «оживляют» обычные фотографии.

Топ-5 нейросетей для создания видео

— Sora

Это нейросеть, представленная американской компанией OpenAI (она же создала и ChatGPT) зимой текущего года.

Новая модель способна генерировать небольшие видеоролики в высоком разрешении. Sora, сразу отметим, стала популярна буквально после анонса — вероятно потому, что была создана инновационным гигантом, чьи разработки уже успели покорить мир.

Нейронка способна генерировать видеоролики на основе текстового запроса в самых разных форматах, вроде клипов, поздравлений и небольших зарисовок. Помимо того, Sora поддерживает и разные стили: реализм и анимация. На текущий момент однако хронометраж ограничен, предел видеороликов — 60 секунд.

Компания продемонстрировала несколько видео, чтобы показать возможности своей новой модели. Сразу стоит отметить детализацию контента нейросети. Так, например, в видеоролике с идущей по Токио женщиной можно разглядеть поры на теле и волоски на голове.

На момент написания статьи нейросеть еще находится на стадии доработки, поэтому мы воспользоваться ей не можем. Доступ пока есть у ограниченного количества тестировщиков. Ожидаем, что до конца года возможность опробовать новую нейронку появится и у обычных пользователей.

— Runway Gen-2

В 2023 году компания Anthropic, которая создана несколькими экс-сотрудниками OpenAI, в рамках своего стартапа представила генеративную нейросеть, которая создает небольшие ролики на основе текста, изображений и даже видео.

Суть нейросети, впрочем, как и предыдущей, напоминает всем знакомые генеративные модели, которые позволяют создавать различные изображения. Только вместо картинок — видеоклипы. Слоган Gen-2 гласит: «Если ты способен это представить, то сможешь и сгенерировать».

Так, вариантов работы с нейросетью несколько: генерация видеороликов по текстовому запросу, по изображению (которое нейронка и будет оживлять), на основе одного лишь видео (которое необходимо видоизменить), на основе макетов и кадров. Кроме того, в нейросети возможно стилизовать уже имеющийся видеоролик, автоматически нанести на него маску или же превратить рендеры в реалистичные клипы.

Однако, несмотря на все имеющиеся возможности модели, пользователи называют ее пока «сырой»: иногда получается создать что-то интересное, но в большинстве случаев выходит нечто странное.

По сути, Gen-2 позиционирует себя как платный инструмент, только вот после регистрации возможно получить только 105 пробных секунд, которых хватит в среднем на 30 видеороликов. Отметим, что общий хронометраж ролика не может превышать 4 секунды.

Если этого не будет достаточно, придется приобрести платный тариф. Так удастся увеличить хронометраж роликов, удалить водяной знак сервиса, а также повысить разрешение видео. Стоимость тарифов начинается от $12 в месяц.

— Genmo

Это нейросеть, в отличие от двух предыдущих, нацелена не только на создание видеороликов. Genmo представляет собой полноценный ИИ-сервис, в котором можно генерировать контент и размещать его на платформе, позволяя делиться своим творчеством с другими пользователями.

Так, нейросеть позволяет генерировать векторные и растровые форматы изображений, создавать статичный графический контент (пара текст + изображение), рисовать анимированные сцены и, конечно, генерировать короткие видеоролики.

Отметим, что изначально сервис задумывался как генератор картинок и гифок, однако в 2023 году подключил раздел «Genmo Replay», с помощью которого как раз-таки и можно сейчас создавать видеоконтент. И, нужно признать, опций для настройки видео достаточно много.

А именно: возможно регулировать соотношение сторон для будущего ролика, параметр движения (насколько активно будут двигаться объекты на видео), количество роликов, зацикленность (будет ли финальный кадр совпадать с начальным), а также длительность роликов (хоть и небольшую — 2, 4 или 6 секунд).

Сервис сам по себе бесплатный, однако имеет ограничения. Так, без покупки тарифа, пользователи могут вводить не более 100 запросов ежедневно, а каждый сгенерированный контент (картинка или видео) будут с водяным знаком. Чтобы избавиться от ограничений, сервис предлагает подключить режим «Турбо» за $10 в месяц.

Сразу стоит отметить, что нейросеть неплохо подойдет для создания гифок и анимированных картинок. В рамках создания полноценных клипов или роликов — пока не дотягивает из-за плохой детализации.

Источник: Кадр из видео, сгенерированного по запросу «Lush green jungle with a hidden waterfall, vibrant, digital painting» / genmo.ai

— Fliki

Fliki представляет собой генеративную нейросеть, которая способна превращать из текстовых заметок и различных статей видеоролики. Более того, с озвучкой или же бегущей текстовой строкой.

Преимущества нейросети заключается в поддержке более 70 языков, сотни диалектов и даже множестве голосов для озвучки. Скажем больше: нейросеть позволяет для каждой реплики выбирать определенного оператора или даже язык. А для озвучки — расположение, шрифт и цвет.

У сервиса интуитивно понятный интерфейс, так что с созданием контента проблем возникнуть не должно.

Так, достаточно будет прикрепить файл, ссылку на статью или же добавить комментарий непосредственно в командную строку. А также выбрать необходимую продолжительность (до 5 минут) и разрешение (до 720 в бесплатной версии) и указать свои предпочтения, вроде желаемой стилистики, преимущественных цветов и объектов с локациями. После чего нейросеть самостоятельно создаст видео, которое, нужно сразу отметить, будет состоять из стоковых видео нарезок и дубляжа.

Сервис отлично подойдет для визуализации информационного контента, однако по сравнению с предыдущими моделями «живые» и реалистичные кадры не создать — видео будет склеено из нескольких имеющихся в базе.

Однако есть и явные плюсы: каждый элемент видеоролика, включая фон, кадры, музыку и текст, возможно будет отредактировать или удалить вовсе.

Бесплатно в нейросети возможно генерировать видеоролики общей длительностью до 5 минут. Платные тарифы начинаются от $6 и позволяют увеличивать лимит хронометража и разрешение.

— Synthesia

Это полноценный ИИ-сервис, предназначенный для генерации видеороликов в формате «вещающей головы». Нейросеть самостоятельно генерирует персонажа и добавляет ему реалистичный голос для озвучки предоставленного пользователем текста.

Генеративная модель основана еще в 2017 году Виктором Рипарбелли совместно с группой исследователей ИИ и предпринимателей. Задумка сервиса — помочь в создании профессионального видеоконтента без необходимости использования специальных студий, оборудования и реальных людей в кадре.

Интерфейс понятный, однако включает в себя достаточно много опций, которые поначалу могут запутать. По сути, для генерации видеоролика потребуется лишь выбрать один из 140 аватаров, необходимый язык (русский поддерживается), а также отметить предпочтения по локации, скорости начитки текста персонажем, а также уровень активности мимики. Более того, в профессиональном режиме возможно создавать и своего персонажа, в том числе и на основе реального.

Так, нейросеть позволяет создавать и озвучивать ролики длительностью до 10 минут, использовать любого понравившегося (или даже нескольких за раз) аватара, вставлять пользовательские видео и изображения, а также редактировать элементы.

Как такового бесплатного режима сервис не предоставляет — в качестве пробного периода дается лишь одна генерация ролика. Платные тарифы стартуют от $30 ежемесячно.

0

Все комментарии проходят модерацию по правилам портала

Топ-5 нейросетей для создания видео

— Sora

— Runway Gen-2

— Genmo

— Synthesia

Комментарии

0