Мир ИИ и Нейросетей
Sora Turbo: состоялся публичный релиз новой модели OpenAI для создания видео
- Информация о материале
- Автор: Super User
- Категория: Uncategorised
- Просмотров: 22
OpenAI объявила о публичном релизе Sora Turbo, значительно улучшенной версии своей гиперреалистичной text-to-video, image-to-video и video-to-video модели. Презентация прошла на конференции «12 дней OpenAI», спустя почти 10 месяцев после первой публичной демонстрации модели в феврале 2024 года.
Технические возможности Sora
Sora Turbo была существенно улучшена по сравнению февральской версией, теперь доступно разрешение от 480p до 1080p, длительность видео от 10 до 20 секунд, широкоэкранное, квадратное и вертикальное соотношения сторон. Модель принимает на ввод текст, изображения и видео.
OpenAI разработала user-интерфейс Sora с возможностью переключения между режимом раскадровки с таймлайном, плавным управлением переходами между видеофрагментами. Пользователи могут использовать функциональность drag-and-drop для настройки склеек и переходов.
Это видео на 100% сгенерировано искусственным интеллектом:
Все функции генерации и редактирования видео Sora
Sora Turbo предлагает широкий набор инструментов для редактирования видео, который выделяет ее среди традиционных видеогенераторов. Платформа включает важные функции для контроля за творческим процессом.
Функция Remix позволяет заменять, удалять или перегенерировать компоненты внутри сцен. Например, пользователи могут трансформировать окружение, перемещая объекты, изменять архитектурные элементы (например, заменять обычные двери на резные), или полностью менять сцену (переключаясь с городского пейзажа на лунный).
Инструмент Storyboard представляет профессиональный интерфейс таймлайна, где пользователи могут организовывать и редактировать последовательность видеоряда. Каждый кадр можно редактировать, с возможностью указывать детальные описания сцен и тайминги. Система поддерживает непрерывность между сценами, позволяя создавать творческие переходы между различными окружениями и сценариями.
Дополнительные инструменты Sora включают:
- Loop: cоздает бесшовные повторяющиеся видео;
- Blend: объединяет несколько клипов в целостные последовательности;
- Re-cut: позволяет изолировать кадры и расширять сцены в обоих направлениях;
- Style presets: включает предустановленные визуальные стили, которые трансформируют сцены с определенными цветовыми палитрами и текстурами.
Подписка и доступ
Модель теперь доступна через sora.com для подписчиков ChatGPT Plus и Pro, при этом из-за жестких регуляций пользователи из ЕС и Великобритании доступ не получили. Уровни доступа включают ChatGPT Plus ($20/месяц), предлагающий до 50 видео с разрешением 480p ежемесячно, и Pro Plan ($200/месяц) с более высоким разрешением, большей длительностью и неограниченным количеством генерацией (скорость при этом все же ограничена). Корпоративные планы подписки планируется добывать к началу 2025 года.
Безопасность
Для обеспечения безопасности и прозрачности OpenAI внедрила следующие ограничения:
- Интеграция метаданных C2PA и водяные знаки по умолчанию для верификации происхождения;
- Внутренний инструмент поиска для верификации контента;
- Ограничения на загрузку материалов с изображением людей;
Первые отзывы
Техноблогер MKBHD (Маркес Браунли), один из нескольких десятков счастливчиков, получивших ранний доступ, поделился мнением о сильных сторонах и ограничениях системы. Отмечая впечатляющую способность создавать реалистичные кадры и высокое качество видео, он также указал на проблемы со случайными галлюцинациями деталей, неестественной физикой, искаженным текстом в генерируемом контенте и непоследовательностью объектов.
X-MeshGraphNet: фреймворк от NVIDIA для физического моделирования на основе графовых нейросетей
- Информация о материале
- Автор: Super User
- Категория: Uncategorised
- Просмотров: 44
Исследователи NVIDIA представили X-MeshGraphNet, новое расширение для MeshGraphNet, которое значительно упрощает создание физических моделей и решает проблемы масштабируемости. Этот фреймворк позволяет создавать сложные физические модели, устраняя зависимость от предварительно сгенерированных сеток. X-MeshGraphNet доступен в репозитории NVIDIA Modulus
Современные методы, такие как анализ конечных элементов (FEA — Finite Element Analysis) и вычислительная гидродинамика (CFD — Computational Fluid Dynamics), требуют существенных вычислительных ресурсов. X-MeshGraphNet предлагает более эффективную альтернативу, сохраняя высокую точность при использовании для real-time приложений и в оптимизации дизайна.
Подробнее о модели
Фреймворк расширяет возможности MeshGraphNet через:
- Построение пользовательских графов напрямую из CAD-файлов вместо генерации 3D-мэша на этапе инференса;
- Разбиение графа на halo-области для масштабируемой обработки;
- Генерацию графов разного масштаба для эффективной обработки как локальных, так и глобальных взаимодействий.
X-MeshGraphNet использует трехуровневую систему: генерацию облака точек непосредственно из CAD-файлов, разбиение графа с halo-областями для бесшовную передачи сообщений, мультискейл репрезентацию, комбинирующую coarse и fine-resolution облака точек.
Производительность X-MeshGraphNet
Исследователи проверили производительность X-MeshGraphNet на трех репрезентативных сэмплах (100, 300 и 500) из датасета DrivAerML с различной геометрией автомобилей. Тесты продемонстрировали консистентную точностьь модели для разных дизайнов, успешно предсказывая разпределение давления воздуха и паттерны пристеночного сдвигового напряжения
X-MeshGraphNet представляет собой значительный прогресс в физическом моделировании и предлагает практическое решение для real-time приложений при сохранении точности результата. Его интеграция в NVIDIA Modulus делает его легко доступным для исследователей и инженеров.