OpenAI объявила о публичном релизе Sora Turbo, значительно улучшенной версии своей гиперреалистичной text-to-video, image-to-video и video-to-video модели. Презентация прошла на конференции «12 дней OpenAI», спустя почти 10 месяцев после первой публичной демонстрации модели в феврале 2024 года.

Технические возможности Sora

Sora Turbo была существенно улучшена по сравнению февральской версией, теперь доступно разрешение от 480p до 1080p, длительность видео от 10 до 20 секунд, широкоэкранное, квадратное и вертикальное соотношения сторон. Модель принимает на ввод текст, изображения и видео.


OpenAI разработала user-интерфейс Sora с возможностью переключения между режимом раскадровки с таймлайном, плавным управлением переходами между видеофрагментами. Пользователи могут использовать функциональность drag-and-drop для настройки склеек и переходов.

Это видео на 100% сгенерировано искусственным интеллектом:


Все функции генерации и редактирования видео Sora

Sora Turbo предлагает широкий набор инструментов для редактирования видео, который выделяет ее среди традиционных видеогенераторов. Платформа включает важные функции для контроля за творческим процессом.

Функция Remix позволяет заменять, удалять или перегенерировать компоненты внутри сцен. Например, пользователи могут трансформировать окружение, перемещая объекты, изменять архитектурные элементы (например, заменять обычные двери на резные), или полностью менять сцену (переключаясь с городского пейзажа на лунный).

Инструмент Storyboard представляет профессиональный интерфейс таймлайна, где пользователи могут организовывать и редактировать последовательность видеоряда. Каждый кадр можно редактировать, с возможностью указывать детальные описания сцен и тайминги. Система поддерживает непрерывность между сценами, позволяя создавать творческие переходы между различными окружениями и сценариями.

Дополнительные инструменты Sora включают:

  • Loop: cоздает бесшовные повторяющиеся видео;
  • Blend: объединяет несколько клипов в целостные последовательности;
  • Re-cut: позволяет изолировать кадры и расширять сцены в обоих направлениях;
  • Style presets: включает предустановленные визуальные стили, которые трансформируют сцены с определенными цветовыми палитрами и текстурами.

Подписка и доступ

Модель теперь доступна через sora.com для подписчиков ChatGPT Plus и Pro, при этом из-за жестких регуляций пользователи из ЕС и Великобритании доступ не получили. Уровни доступа включают ChatGPT Plus ($20/месяц), предлагающий до 50 видео с разрешением 480p ежемесячно, и Pro Plan ($200/месяц) с более высоким разрешением, большей длительностью и неограниченным количеством генерацией (скорость при этом все же ограничена). Корпоративные планы подписки планируется добывать к началу 2025 года.

Безопасность

Для обеспечения безопасности и прозрачности OpenAI внедрила следующие ограничения:

  • Интеграция метаданных C2PA и водяные знаки по умолчанию для верификации происхождения;
  • Внутренний инструмент поиска для верификации контента;
  • Ограничения на загрузку материалов с изображением людей;

Первые отзывы

Техноблогер MKBHD (Маркес Браунли), один из нескольких десятков счастливчиков, получивших ранний доступ, поделился мнением о сильных сторонах и ограничениях системы. Отмечая впечатляющую способность создавать реалистичные кадры и высокое качество видео, он также указал на проблемы со случайными галлюцинациями деталей, неестественной физикой, искаженным текстом в генерируемом контенте и непоследовательностью объектов.