• нейросети
  • статьи
  • 15 авг. 24

Генерация видеороликов, наложение масок и стилизация: все, что нужно знать о нейросети Runway

Подробно рассказываем о нейросети Runway, популярной платформе для генерации и обработки видеороликов при помощи искусственного интеллекта. К слову, создали нейросеть выходцы из OpenAI.

  • 256
  • 0
  • 0
Ulyana Proskunova
  • рейтинг +11
  • подписчики 5

Вряд ли мы для кого-то откроем секрет, но в 2024 году можно за пару минут сгенерировать не только текст с изображениями, но и видеоролики.

Генерация видеоконтента на основе текстового описания (text-to-video) возникла сравнительно недавно, но уже сейчас считается одним из самых стремительно развивающихся направлений машинного обучения.

Ранее мы рассказывали о наиболее прогрессивных инструментах, которые позволяют создавать качественный видеоконтент разного формата. В этой статье остановимся на одном из таких — нейросети Runway, популярной платформе для генерации и обработки видеороликов при помощи искусственного интеллекта. К слову, создали нейросеть выходцы из OpenAI — компании-гиганта, прославившейся на весь мир ИИ-помощником ChatGPT.

Runway выделяется на фоне аналогичных продуктов своим широким функционалом. К слову, нейронка позволяет генерировать контент не только на основе текстового промпта, но и видеореференсов, фотографий и даже документов. Помимо того, в инструменте возможно применять десятки различных визуальных эффектов, но об этом немного позже.

Runway: что из себя представляет

Мы считаем, что системы искусственного интеллекта, применяемые к аудиовизуальному контенту, навсегда изменят искусство и творчество, — ярко заявляется на официальном сайте Runway.

Сразу сделаем небольшую ремарку: это не совсем нейросеть. Runway представляет собой полноценную платформу, созданную для генерации визуального контента с использованием ИИ. На ней используются инновационные технологии для обучения, глубокого анализа данных и, разумеется, генерации статичного и динамичного контента.

Стартап был создан, как уже отметили, несколькими экс-сотрудниками OpenAI — компанией Anthropic еще в 2018 году. Притом спустя пару лет Runway AI получили инвестирование в $50 млн.

К настоящему моменту компания может похвастаться уже несколькими поколениями своей модели, предназначенными для генерации и редактирования видеоконтента: это Gen-1, Gen-2 и Gen-3 Alpha. В каждой из которых компания использовала подход, похожий на принцип работы Dall-E и Stable Diffusion. Нейросети обучались на многомиллионном массиве фотографий и видеороликов в паре с текстом.

А именно: осваивали навык удаления лишних фрагментов из изображений и видео — шаблона, — а после чего уже и выдавали итоговый результат.

Обычно диффузионные модели применяют для работы с синтезом речи и трехмерной графикой. Однако, как показывает практика, диффузионный подход позволяет превращать любые идеи в уникальные и качественные видеоролики.

Источник: Runwayml.com
Источник: Runwayml.com

Как развивались Runway AI: подробнее о поколениях нейросети

— Runway Gen-1

В начале 2023 года компания анонсировала первое поколение Runway — Gen-1. Нейросеть умеет работать с визуалом и стилистикой исходных видеороликов или же их отдельных объектов при помощи текстовых подсказок, изображений или рендеров.

Архитектура генеративной модели построена на моторе синтеза видеоконтента с использованием диффузионных моделей. В деле работает это так: посредством диффузии меняется содержание исходных видеороликов с сохранением его структуры. Для этого разработчики использовали два параметра: структурный гид (модель, обучающаяся на контенте без текстовых подсказок и специализирующаяся на генерации контента, похожего на исходный) и контентный гид (модель, обучающаяся на изображениях в паре с текстом).

Gen-1 способна генерировать видеоконтент в нескольких режимах: стилизации, раскадровке, маске, рендеринге и кастомизации. Однако, несмотря на все имеющиеся возможности, она все же «сырая»: иногда получается создать что-то интересное, но в большинстве случаев выходит нечто странное.

Для того, чтобы воспользоваться Gen-1, достаточно подгрузить в нейросеть исходный видеоролик, а после — указать один из вариантов его изменения. Сервис предоставляет возможность бесплатно сгенерировать 15 секунд видео в месяц. Цены на платную подписку стартуют от $15 ежемесячно.

Источник: Runwayml.com
Источник: Runwayml.com

— Runway Gen-2

Буквально через пару месяцев компания представила уже улучшенную версию генеративной модели — Gen-2. Нейросеть научилась создавать более «живые» и детализированные видеоролики по сравнению со своим предшественником.

Кроме того, второе поколение нейросети может похвастаться более высоким качеством роликов и плавностью движения. Иными словами, пока Gen-1 делает акцент на изменении исходного ролика, Gen-2 уже создает видеоконтент с нуля. Это позволяет нейросети быть еще более доступной и универсальной в рамках самых разных вариантов использования.

Так, вариантов работы с нейросетью несколько: генерация видеороликов по текстовому запросу, по изображению (которое нейронка и будет оживлять), на основе одного лишь видео (которое необходимо видоизменить), на основе макетов и кадров.

В нейросети возможно стилизовать и редактировать уже имеющийся видеоролик, автоматически нанести на него маску или же превратить рендеры в реалистичные клипы. Разработчики также добавили в Gen-2 возможность интеграции с другими инструментами и программами для более расширенного функционала обработки видеороликов.

Gen-2 также предоставляет пробный период: после регистрации возможно получить 105 бесплатных секунд, которых хватит в среднем на 30 видеороликов. Отметим, что общий хронометраж ролика не может превышать 4 секунды. Если этого не будет достаточно, придется приобрести платный тариф. Так удастся увеличить хронометраж роликов, удалить водяной знак сервиса, а также повысить разрешение видео. Стоимость тарифов начинается от $12 в месяц.

Источник: Runwayml.com
Источник: Runwayml.com

— Runway Gen-3 Alpha

В июне 2024 года стартап представил уже третье поколение модели и на сегодняшний день последнюю разработку — Gen-3 Alpha, которая к настоящему времени доступна для всех пользователей.

Разработчики отметили, что обновленная версия нейросети более качественно обрабатывает сложные запросы и лучше справляется с изображением движений в кадре. Пользователи считают, что Gen-3 вполне может затмить своего конкурента — Sora от ИИ-гиганта OpenAI.

Подход к обучению Gen-3 в целом не отличается от предыдущих версий за исключением расширенного массива видеозаписей с изображениями, а также участия профессионалов из киноиндустрии. Это позволило улучшенной модели понимать и реализовывать разнообразные стили вместе с кинематографическими приемами.

Отметим, что для генерации также доступно несколько режимов: на базе текста, изображений и исходного видеоролика. Но разработчики добавили несколько новых инструментов для стилизации и обработки видео:

— Motion Brush, позволяющий выделять объекты в кадре и вносить в них корректировки;

— Advanced Camera Controls, позволяющий регулировать фокус и настраивать различные эффекты, вроде прохода кинокамеры;

— Director Mode, представляющий собой особый интерфейс для комфортного управления функциями и возможностями генерации с предпросмотром результата.

Разработчики подчеркивают, что новую модель наделили системой модерации видеоконтента, поэтому Gen-3 просто не допустит генерацию контента, который противоречит правилам.

В Runway убеждены в том, что Gen-3 — это шаг к глобальной цели по созданию мировой модели, которая объединит все самое лучшее и позволит лучше понимать, а также воспроизводить визуальный мир с его реальной динамикой.

Но есть и небольшой нюанс — данный продукт, по сравнению с предыдущим, позиционирует себя как исключительно платная нейросеть, поэтому даже ограниченного количества пробных секунд нет. Доступ возможен только по платным тарифам, которые начинаются от $15 в месяц и позволяют генерировать ролики до минуты. Выше тариф — больше хронометраж.

Источник: runwayml.com
Источник: runwayml.com

Опробовать все поколения нейросети возможно после быстрой регистрации через почту или существующий Google-аккаунт. Сервис предлагает несколько вариантов использования: через официальный сайт Runway, а также через мобильные приложения компании.

  • 256
  • 0
  • 0