Прорыв в технологии многомодальной генерации видео, какие возможности у Web3 AI?

Средний7/9/2025, 10:18:15 AM
Эта статья анализирует прорывы в технологии многомодальной генерации видео (таких как EX-4D от Byte, Google Veo и др.) и обсуждает их глубокое влияние на экономику создателей и Web3 AI.

Помимо "погружения" в локализацию ИИ, самым большим изменением в секторе ИИ в последнее время является технологический прорыв в многомодальной генерации видео, который эволюционировал от поддержки чисто текстовой генерации видео к полностью интегрированной технологии генерации, объединяющей текст, изображения и аудио.

Вот несколько примеров технологических прорывов, которые могут испытать все:

1) ByteDance открывает исходный код фреймворка EX-4D: Монохромное видео мгновенно преобразуется в контент 4D с свободной точкой зрения, с уровнем приемлемости пользователей 70,7%. Это означает, что для обычного видео ИИ может автоматически генерировать эффекты просмотра с любого угла, что ранее требовало работы профессиональной команды 3D-моделирования.

2) Платформа Baidu "Hui Xiang": генерирует 10-секундное видео из одного изображения, утверждая, что достигает качества "кинематографического уровня". Однако, является ли это преувеличением маркетинга, еще предстоит увидеть до обновления Pro версии в августе.

3) Google DeepMind Veo: Может достичь генерации 4K видео + синхронизации окружающего звука. Ключевым технологическим достижением является возможность «синхронизации», так как ранее это было слияние двух систем для видео и аудио. Чтобы достичь истинного семантического соответствия, необходимо преодолеть значительные проблемы, такие как в сложных сценах, где необходимо решить вопрос синхронизации действий ходьбы в видео и соответствующих звуков шагов.

4) Контент Douyin: 8 миллиардов параметров, 2,3 секунды для генерации видео 1080p, стоимость 3,67 юаня/5 секунд. Честно говоря, этот контроль затрат довольно хороший, но в настоящее время, учитывая качество генерации, он все еще уступает при столкновении со сложными сценами.

Почему говорится, что эти случаи имеют значительную ценность и значение в отношении прорывов в качестве видео, производственных затратах и сценариях применения?

1. В плане прорывов в технологической ценности сложность создания мультимодального видео часто является экспоненциальной. Одно изображение состоит примерно из 10^6 пикселей, и видео должно обеспечивать временную согласованность (по крайней мере 100 кадров), а также синхронизацию звука (10^4 точки отсчета в секунду), при этом учитывая 3D-пространственную согласованность.

В заключение, техническая сложность невысока. Изначально это была супербольшая модель, которая справлялась со всеми задачами напрямую. Говорят, что Sora сжег десятки тысяч H100, чтобы достичь возможностей генерации видео. Теперь это можно реализовать через модульное разложение и совместную работу крупных моделей. Например, EX-4D от Byte фактически разбивает сложные задачи на: модуль оценки глубины, модуль преобразования точки зрения, модуль временной интерполяции, модуль оптимизации рендеринга и так далее. Каждый модуль специализируется на одной задаче, а затем координируется через механизм.

2. В терминах снижения затрат: это фактически связано с оптимизацией самой архитектуры вывода, включая многоуровневую стратегию генерации, где сначала создается каркас низкого разрешения, а затем улучшается контент изображения высокого разрешения; механизм повторного использования кеша, который заключается в повторном использовании похожих сцен; и динамическое распределение ресурсов, которое фактически корректирует глубину модели в зависимости от сложности конкретного контента.

С этим набором оптимизаций мы добьемся результата 3.67 юаня за 5 секунд для контента Douyin ContentV.

3. Что касается влияния на приложение, традиционное производство видео — это капиталоемкая игра: оборудование, площадки, актеры, пост-продакшн; нормально, что реклама длительностью 30 секунд стоит сотни тысяч. Теперь ИИ сжимает весь этот процесс до команды и нескольких минут ожидания и может достичь перспектив и специальных эффектов, которые трудно получить при традиционной съемке.

Это превращает оригинальные технические и финансовые барьеры видеопроизводства в креативность и эстетику, что может способствовать перетасовке всей экономики создателей.

Возникает вопрос, какова связь между изменениями в спросе на технологии web2 AI и web3 AI?

1. Во-первых, изменение структуры спроса на вычислительную мощность. Ранее в области ИИ конкуренция базировалась на масштабе; кто имел больше однородных кластеров GPU, тот и побеждал. Однако спрос на многомодальную генерацию видео требует разнообразного сочетания вычислительной мощности, что может создать потребность в распределенной неиспользуемой вычислительной мощности, а также различных распределенных моделей дообучения, алгоритмов и платформ для вывода.

2. Во-вторых, спрос на маркировку данных также усилится. Создание видео профессионального уровня требует: точных описаний сцен, эталонных изображений, аудиостилей, траекторий движения камеры, условий освещения и т. д., что станет новыми профессиональными требованиями к маркировке данных. Использование методов стимуляции Web3 может побудить фотографов, звукоинженеров, 3D-художников и других предоставить профессиональные элементы данных, улучшая возможности генерации видео ИИ с помощью специализированной вертикальной маркировки данных.

3. Наконец, стоит упомянуть, что когда ИИ постепенно переходит от централизованного распределения крупных ресурсов к модульному сотрудничеству, это само по себе представляет новый спрос на децентрализованные платформы. В это время вычислительная мощность, данные, модели, стимулы и т. д. совместно сформируют самоподдерживающееся маховик, который, в свою очередь, будет способствовать интеграции сценариев web3AI и web2AI.

Заявление:

  1. Эта статья перепечатана из [tmel0211tmel0211],Авторские права принадлежат оригинальному автору [tmel0211] Если у вас есть какие-либо возражения против перепечатки, пожалуйста, свяжитесь Команда Gate LearnКоманда обработает это как можно быстрее в соответствии с соответствующими процедурами.
  2. Отказ от ответственности: Мнения и взгляды, выраженные в этой статье, принадлежат исключительно автору и не представляют собой инвестиционных рекомендаций.
  3. Другие языковые версии статьи переводятся командой Gate Learn, если не указано иное.ГейтНи при каких обстоятельствах переведенные статьи не должны копироваться, распространяться или заимствоваться.

Пригласить больше голосов

Начните торговать сейчас
Зарегистрируйтесь сейчас и получите ваучер на
$100
!