• нейросети
  • статьи
  • 07 мар.
  • 323
  • 0
  • 0

Все, что нужно знать о VideoPrism — ИИ-инструменте для видео от Google

NFTRU

+112

На сегодняшний день различные видеозаписи, которые попадаются пользователям по всей сети ежедневно, можно назвать неотъемлемой частью интернета. А в эру инноваций и молниеносно развивающихся технологий съемки, монтажа и публикаций вовсе могут отнять какие-то считанные минуты. 

Помимо того, что формат видео считается действительно легким и привлекательным, он еще и практически универсален — размещать видеоролики можно на любой платформе, а для просмотра подойдет уже и любое устройство. Так, в ход пошел и развлекательный, и познавательный, и информационный, и, разумеется, рекламный контент.

Что касается последнего, так ни для кого не секрет, что видеоконтент в наше время — это обычная процедура маркетингового продвижения. 

Согласно отчету Demand Metric, более 80% опрошенных считают, что видеозаписи глобально влияют на современную аудиторию. Это говорит о том, что компании также не должны оставлять без внимания видеоконтент при формировании маркетинговых стратегий. В противном случае — они «не перешагнут» конкурентов.  

В этом на самом деле нет ничего удивительно — ролики как средство доставки информации до потребителя несут в себе большую силу сторителлинга, чем текст и статичные изображения. Именно поэтому многие современные маркетологи отдают предпочтение данному формату и подключают все возможные инструменты для его анализа. Метрик для этого, к слову, на каждый формат видеороликов большое количество. После публикации контента важно взять во внимание и количество просмотров, и соотношение лайков и дизлайков, и комментарии, и упоминания продукта или компании в социальных сетях — и это все лишь малая часть. 

В случае, когда встроенных в платформу инструментов недостаточно, специалисты подключают сторонние решения, вроде JagaJam, Livedune и Popsters. Однако если пользователям потребуется автоматически создать субтитры к видеоролику или точно найти видео по точечным критериям, перечисленные сервисы уже не помогут — придется переключаться на другие решения. Иными словами, одна головная боль для видеомейкеров, контент-менеджеров и маркетологов. 

Именно с решением упростить специалистам (да и обычным пользователям) множество задач на рынок зашел технологический гигант Google вместе со своим новым ИИ-инструментом VideoPrism, предназначенным для понимания и анализа видеоконтента. Конкурентное преимущество продукта заключается в его многофункциональности — и поиск видео, и его анализ, и автоматическое создание субтитров, и многое другое. О нем сейчас и поговорим. 

VideoPrism: что это?

VideoPrism — это инновационный инструмент от Google, который предназначен для облегчения восприятия и анализа видеоконтента. Как упоминает сама компания, новый продукт представляет собой базовый визуальный кодировщик для понимания видео (ViFM) на основе искусственного интеллекта. 

Его ключевая задача состоит в создании единой модели для понимания любых видеороликов и на любых платформах. Так, новый «гугловский» инструмент может быть использован для глубокого анализа и обработки широкого ряда задач, включая и понимание видео, и его вид, и локализацию, и субтитры, и даже точную информацию для пользователя. 

Источник: blog.research.google
Источник: blog.research.google

Иными словами, VideoPrism предназначен в качестве универсального инструмента, способного отрабатывать сложные видеоданные и «отдавать» пользователям полезные результаты. Основной особенностью инструмента можно назвать нейросети, которые собственно и задействованы для выявления паттернов, объектов и любых действий, мелькающих в видеозаписях. Это дает возможность пользователям получать важные инсайты из контента.

Примечательно, что для обучения новой модели был задействован огромный объем данных, представленных выборкой буквально всех видеороликов, которые в принципе существуют в сети. Более того, Google задействовали общедоступные и частные наборы данных с платформ, вроде YT-Temporal-180M, InternVid, VideoCC, WTS-70M.

Согласно пресс-релизу, инструмент обучался на большом и разнообразном массиве данных, включающем в себя порядка 582 млн видеофрагментов с разными уровнями текстовых данных, а также 36 млн тщательно отобранных видеоклипов с высококачественными описаниями. 

Источник: Статистика данных предварительной подготовки видео-текста / blog.research.google
Источник: Статистика данных предварительной подготовки видео-текста / blog.research.google

«Наш подход к обучению нацелен на эффективную работу нейросетей с гибридными данными, такими как пары текст— видео, так и видеоролики без текстового сопровождения. VideoPrism способен легко адаптироваться к новым задачам в рамках понимания видеоконтента, что обеспечивает высокий уровень производительности и эффективности», — сообщают разработчики. И, вероятно, они правы. Обучение нейросетей смело можно отнести к одним из самых масштабных и крупных. 

Обучение VideoPrism проходит в два этапа:

Первый этап предполагает так называемое контрастное обучение, с помощью которого нейронная модель учится сопоставлять видеоконтент с текстовыми описаниями. 

После чего разработчики добавляют подборки видеороликов без текстового описания. Так, обучение переходит на второй этап, на котором подключается готовый набор инструментов для маскированного моделирования видеоконтента. Говоря простым языком, нейросеть на этом этапе учится предсказывать замаскированные маски, фильтры, заплатки и улучшения на уровне видео. 

Вместе с тем, модель подключает в работу уже и знания, полученные на первом этапе: на выходе получаем инструмент, умеющий работать и с текстовыми, и с визуальными данными.

Что умеет делать VideoPrism?

Главным преимуществом нового инструмента считается его адаптивная способность к абсолютно любому типу видеоконтента: будь то интервью, фильм, развлекательный ролик или видеоклип —  не имеет значения. VideoPrism будет использоваться при работе с самым разнообразным форматом видео, при этом гарантирует точные и высококачественные результаты.

Вместе с тем, инструмент может интегрироваться в экосистему Google, позволяя пользователям задействовать новый инструмент в своих рабочих процессах и сочетать с другими сервисами компании. 

Так, новый инструмент способен справиться со следующими задачами:

  • Подбор описания к видеороликам: специально обученная модель способна сгенерировать описание к абсолютно любому видеоконтенту;
  • Осуществление быстрого и точного поиска в сети по заданным пользователем запросам;
  • Проводить глубокий анализ видеоконтента, предполагающий определение темы, настроения, ключевых слов и многих других параметров, интересующих пользователя. 
  • Отслеживать и распознавать объекты на видео: определенных людей, вещей, предметов и мест. Более того, инструмент может даже определить местоположение и траекторию движения того или иного объекта;
  • Отвечать на вопросы пользователей посредством глубокого анализа ролика и получения из него подробной информации;
  • Автоматически создавать субтитры для видеоролика.

Несмотря на то, что VideoPrism находился только на этапе разработки, внимание к себе он привлек уже большое. 

Как считает нейросетевой стартап RuGPN.Net, инструмент несет в себе большой потенциал, открывая новый опыт для пользователей и облегчая их работу с видеоконтентом: он «не только последовательно превосходит сильные базовые модели нейросетей, но эффективно решает широкий спектр задач реального мира. VideoPrism проложит путь для будущих открытий на стыке искусственного интеллекта и анализа видео».

  • 323
  • 0
  • 0

0

NFTRU

+112

0 комментариев