15 февраля OpenAI анонсировала самую важную модель искусственного интеллекта в 2024 году: Sora, передовую (SOTA) модель преобразования текста в видео, способную генерировать высококачественные и высокоточные 1-минутные видеоролики с различными соотношениями сторон кадров и разным разрешением.
Однако назвать это технологию SOTA (State of the Art, «современного технического уровня)» – явное преуменьшение, ведь Sora значительно, на многие мили, обгоняет всех остальных. Это универсальная, масштабируемая модель, а также… симулятор реальности?
Прежде всего, Sora – качественная модель преобразования текста в видео, что само по себе впечатляет.
Но Sora – нечто большее. Руководствуясь текстовыми подсказками, модель способна анимировать изображения в видео, не ограничиваясь элементарными техниками. Sora может создавать новые видео из других видео, добавляя сцены, создавая циклы, увеличивая продолжительность и даже интерполируя видео.
Хотя Sora – видеомодель, она может создавать высококачественные изображения из текста (как DALL-E и Midjourney; возможно, даже лучше, чем они). Способность следовать подсказкам в Sora очень развита благодаря внутреннему процессу повторения (уже присутствует в DALL-E 3, но в Sora распространяется на видео).
Sora делает всё это — особенно генерации, связанные с видео — намного лучше, чем любой конкурент (достаточно посмотреть на Google Lumiere).
Основные характеристики модели:
Sora – модель искусственного интеллекта, способная создавать видеоролики продолжительностью до минуты с высокодетализированными сценами, сложными движениями камеры и множеством персонажей с яркими эмоциями. Кроме того, видеоролики она может создавать на основе неподвижного изображения или дополнять существующие кадры новым материалом.
Sora работает, получая от пользователя короткую описательную подсказку, например: « Стильно одетая женщина идёт по токийской улице в лучах мягкого неонового света». Затем ИИ интерпретирует подсказку и моделирует физический мир в движении, используя большой массив видеороликов, на которых был обучен.
Наряду с этим, модель понимает предпочтения пользователя в отношении стиля и «настроения» видео, например «кинематографический стиль, снятый на 35-миллиметровую пленку, яркие цвета», и может соответствующим образом регулировать освещение, цвет и ракурс камеры.
Модель способна работать с различными жанрами и темами – фэнтези, научная фантастика, ужасы, комедия и многое другое.
Каков механизм работы Sora?
Sora – диффузионный преобразователь
Sora сочетает в себе диффузионную модель (DALL-E 3) с архитектурой преобразователя (ChatGPT). Такая комбинация позволяет модели обрабатывать видео (которые представляют собой временные последовательности кадров изображений) так же, как ChatGPT обрабатывает текст.
В частности, OpenAI почерпнула вдохновение из работы DeepMind над преобразователями зрения, чтобы «представлять видео и изображения как коллекции более мелких единиц данных, называемых [пространственно-временными] вставками, каждая из которых похожа на токен в GPT».
В описании Sora, опубликованном OpenAI, очень мало деталей, позволяющих как воспроизвести работу, так и глубоко ее понять. Мы очень мало знаем о конкретной архитектуре Sora, за исключением того, что это диффузионный преобразователь, и мало что знаем об обучающих данных, за исключением того, что это видео с субтитрами.
Одна из гипотез заключается в том, что по крайней мере часть обучающих данных поступает из Unreal Engine 5 («металюди», «матричная демонстрация») или других 3D-движков (на что указывают особенности артефактов). Данные NerF – ещё одна гипотеза.
Генерируя видео из текстовых подсказок, Sora использует метод, называемый синтезом текста в видео. Он включает преобразование естественного языка в визуальные представления, такие как изображения или видео. Синтез текста в видео – сложная задача, поскольку для ее решения требуется, чтобы модель искусственного интеллекта понимала смысл и контекст текста, а также визуальные и физические аспекты видео.
Например, модели необходимо знать, какие объекты и персонажи находятся в сцене, как они выглядят, как движутся, как взаимодействуют и как на них влияет окружающая среда.
Sora функционирует на основе глубокой нейронной сети, которая представляет собой тип модели машинного обучения, способной учиться на данных и выполнять сложные задачи. Модель использует большой набор видеоматериалов, охватывающих различные темы, стили и жанры.
Sora анализирует текстовую подсказку и извлекает соответствующие ключевые слова, относящиеся к теме, действию, месту, времени и настроению. Затем в своем наборе данных она находит видео, максимально соответствующие ключевым словам, и на их основе создает новое видео.
Кроме того, Sora использует технику переноса стиля, которая позволяет изменять внешний вид и ощущение, вызываемое видео, в соответствии с предпочтениями пользователя. Например, если пользователю нужно видео в кинематографическом стиле, снятое на 35-миллиметровую пленку, с яркими цветами, модель может применить к видео эти эффекты, изменяя освещение, цвет и ракурсы камеры.
Sora может создавать видео с разрешением до 1920x1080 и до 1080x1920, видеоролики на основе неподвижного изображения, а также дополнять существующие кадры новым материалом. Например, если пользователь предоставляет неподвижное изображение леса, модель анимирует изображение и добавляет новые элементы в виде животных, птиц или людей. Если пользователь предоставляет видео автомобиля, едущего по дороге, Sora может расширить видео и добавить движение транспорта, здания, пейзажи и другие элементы.
Sora – значительное достижение в области искусственного интеллекта и генерации видео, поскольку демонстрирует глубокое понимание языка, визуального восприятия и физической динамики. Модель позволяет судить о потенциале ИИ в деле создания увлекательного и захватывающего контента, который можно использовать в развлекательной индустрии, в образовании, искусстве и сфере общения.
Sora – универсальная масштабируемая модель визуальных данных
Sora может не только создавать изображения и видео из текста или преобразовывать изображения и видео в другие видео, но и делать это, в отличие от конкурентов, обобщенным и масштабируемым способом.
Например, Sora «может создавать несколько кадров в одном видео, в которых точно сохраняются персонажи и визуальный стиль». Она способна создавать видеоролики продолжительностью до минуты, но их можно делать короче, по желанию. Можно создавать вертикальные, квадратные и горизонтальные видео с разным разрешением. Из отчета: «Sora может создавать образцы широкоэкранного видео с разрешением 1920x1080p, вертикального видео с разрешением 1080x1920 и все, что между ними». Вот пример.
Помимо универсальности, Sora, похоже, следует законам масштабирования, которые отражают законы языковых моделей. Качество существенно улучшается просто за счет добавления вычислительных ресурсов благодаря характеристикам архитектуры преобразователя. Вот пример.
Именно эта обобщенная, масштабируемая природа позволяет многим выступать с прогнозами о том, что ИИ приведет к «смерти» Голливуда и кинематографа в целом. Учитывая темпы прогресса, вполне можно допустить появление в обозримом будущем (в течение нескольких месяцев) модели искусственного интеллекта, способной создавать сложные видеоролики продолжительностью до 5 или 10 минут, с множеством сцен и действующих лиц.
Сценарии использования Sora:
Создание трейлеров, короткометражных, анимационных и документальных фильмов на основе текстовых сценариев.
Sora может помочь кинематографистам и рассказчикам визуализировать их идеи и концепции, а также создавать интересные и оригинальные видеоролики.
Зрителям Sora помогает находить новый интересный контент, исходя из их предпочтений и интересов, и наслаждаться более персонализированными и интерактивными видео на основе их отзывов и предложений.
Улучшение существующих видео новыми элементами, например спецэффектами, изменением фона или вставкой новых персонажей.
Создание обучающих видеороликов на основе текстовых резюме, например, с объяснением научных концепций, исторических событий или культурных явлений.
Создание персонализированных видеороликов для социальных сетей, таких как поздравления с днем рождения, дневники путешествий или мемы.
Проблемы и ограничения Sora
Sora не идеальна и все еще сталкивается с некоторыми проблемами и ограничениями. Некоторые из них:
В настоящее время OpenAI не выпускает Sora (даже в качестве скромного предварительного исследования). Модель проходит ред-тиминг (проверку на уязвимость к кибератакам) и проверку безопасности. OpenAI хочет собрать отзывы от «политиков, преподавателей и художников со всего мира». Наряду с этим, компания работает над классификатором, позволяющим распознавать видео, созданные Sora, и над способами предотвращения дезинформации.
OpenAI не объявила, когда и как она выпустит Sora для широкой публики, и какова будет модель ценообразования и лицензирования.
На Sora распространяются условия обслуживания OpenAI, которые запрещают использование модели для создания контента, который включает в себя «чрезмерное насилие, демонстрацию сексуальности, разжигающие ненависть изображения, изображения знаменитостей или чужую интеллектуальную собственность». OpenAI контролирует использование Sora и оставляет за собой право отозвать доступ или изменить выходные данные, если обнаружит какое-либо нарушение или злоупотребление.
Sora может создавать неточный, неприемлемый или вредный контент, например, искажать факты, посягать на конфиденциальность и способствовать предвзятости.
Модель способна создавать контент, неотличимый от реальности, что может вызывать этические и социальные риски, такие как распространение дезинформации, манипулирование эмоциями или подрыв доверия.
Sora может быть не в состоянии справиться со сложными или неоднозначными подсказками, например, состоящими из нескольких предложений, логических рассуждений или абстрактных концепций.
Sora может не справляться с задачей создания связных или последовательных видеороликов – например, требующих временной непрерывности, причинно-следственных связей или повествовательной структуры.
Sora – [примитивный] симулятор реальности
Эта характеристика взволновала (встревожила?) многих больше всего, но есть ли реальные поводы для беспокойства?
Sora – модель преобразования текста в видео. Да, она лучше остальных, но такая технология уже существовала. Sora – диффузионный преобразователь. Аналогично, OpenAI не изобрела эту технологию, хотя и добавила отдельные интересные ингредиенты. Sora – общая и масштабируемая визуальная модель. Этот аспект открывает возможности для будущих исследований, и сюрпризы гарантированы.
Но, прежде всего, Sora – это модель искусственного интеллекта, которая может создавать физически реалистичные сцены с правдоподобными взаимодействиями, точно воспроизводящими события реального мира. Таким образом, Sora – симулятор реальности. Безусловно, пока он примитивный (иногда дает сбои настолько существенные, что лучше будет называть модель «физикой снов»), но первый в своем роде.
OpenAI заявляет, что Sora не только понимает стиль, декорации, персонажей, объекты и концепции, присутствующие в подсказке и т. д., но также понимает, «как всё это существуют в физическом мире». Однако неудачи Sora показывают, что, хотя модель, возможно, и усвоила набор физических правил, которые определяют процесс генерации видео, ее способности несовершенны (и OpenAI это признает). Но, конечно, это лишь первый шаг в таком направлении.
Еще от OpenAI о Sora как симуляторе физического мира (отредактировано для ясности):
Возможности моделирования:
3D-согласованность.
Когерентность на большом расстоянии и постоянство объектов (например, модель может сохранять людей, животных и объекты, даже когда они закрыты или выходят за пределы кадра).
Взаимодействие с миром (например, художник может оставлять на холсте новые мазки, которые сохраняются со временем).
Моделирование цифровых миров (например, Minecraft).
OpenAI завершает описание так:
Sora служит основой для моделей, которые могут понимать и моделировать реальный мир. Мы считаем, что эта способность станет важной вехой на пути к созданию общего искусственного интеллекта (AGI).
И здесь возникают вопросы:
1. Насколько мы приблизились к Матрице?
2. Действительно ли мы хотим в ней оказаться?
Как узнать больше о Sora и увидеть ее в действии?
Если вам интересно узнать больше о Sora и увидеть ее в действии, вы можете посетить следующие ресурсы:
Сообщение в блоге OpenAI, знакомящее с Sora и показывающее некоторые примеры ее результатов.