Avance en la tecnología de generación de video multimodal, ¿qué oportunidades tiene la IA de Web3?

Intermedio7/9/2025, 10:18:15 AM
Este artículo analiza los avances en la tecnología de generación de video multimodal (como EX-4D de Byte, Google Veo, etc.) y discute su profundo impacto en la economía de creadores y la Web3 AI.

Aparte de la "inmersión" de la localización de IA, el cambio más grande en el sector de la IA recientemente es el avance tecnológico en la generación de video multimodal, que ha evolucionado de soportar la generación de video basada únicamente en texto a una tecnología de generación totalmente integrada que combina texto, imágenes y audio.

Aquí hay algunos ejemplos de avances tecnológicos para que todos los experimenten:

1) ByteDance lanza como código abierto el marco EX-4D: El video monocular se transforma instantáneamente en contenido 4D desde cualquier punto de vista, con una tasa de aceptación del usuario del 70.7%. Esto significa que para un video ordinario, la IA puede generar automáticamente efectos de visualización desde cualquier ángulo, lo que anteriormente requería un equipo profesional de modelado 3D para lograr.

2) Plataforma "Hui Xiang" de Baidu: genera un video de 10 segundos a partir de una imagen, afirmando lograr una calidad de "nivel cinematográfico". Sin embargo, si esto es una exageración por parte del marketing, sigue por verse hasta la actualización de la versión Pro en agosto.

3) Google DeepMind Veo: Puede lograr la generación de video en 4K + sincronización de sonido ambiental. El aspecto tecnológico clave es el logro de la capacidad de "sincronización", ya que anteriormente era una combinación de dos sistemas para video y audio. Para lograr un verdadero emparejamiento a nivel semántico, deben superarse desafíos significativos, como en escenas complejas, donde debe abordarse la sincronización de las acciones de caminar en el video y los sonidos correspondientes de los pasos.

4) Contenido de Douyin: 8 mil millones de parámetros, 2.3 segundos para generar video en 1080p, costo de 3.67 yuanes/5 segundos. Para ser honesto, este control de costos es bastante bueno, pero actualmente, considerando la calidad de generación, todavía queda corto al encontrarse con escenas complejas.

¿Por qué se dice que estos casos tienen un valor y significado significativos en términos de avances en la calidad de video, costos de producción y escenarios de aplicación?

1. En términos de avances en el valor tecnológico, la complejidad de generar un video multimodal es a menudo exponencial. Una imagen de un solo fotograma consta de aproximadamente 10^6 píxeles, y un video debe garantizar la coherencia temporal (al menos 100 fotogramas), junto con la sincronización de audio (10^4 puntos de muestra por segundo), mientras que también se considera la consistencia espacial 3D.

En resumen, la complejidad técnica no es baja. Originalmente, era un modelo super grande que abordaba todas las tareas de frente. Se dice que Sora quemó decenas de miles de H100s para lograr capacidades de generación de video. Ahora, se puede realizar a través de la descomposición modular y el trabajo colaborativo de grandes modelos. Por ejemplo, el EX-4D de Byte descompone en realidad tareas complejas en: módulo de estimación de profundidad, módulo de transformación de punto de vista, módulo de interpolación temporal, módulo de optimización de renderizado, y así sucesivamente. Cada módulo se especializa en una tarea y luego coordina a través de un mecanismo.

2. En términos de reducción de costos: en realidad implica optimizar la arquitectura de razonamiento en sí, incluyendo una estrategia de generación por capas, donde primero se genera un esqueleto de baja resolución y luego se mejora el contenido de imagen de alta resolución; un mecanismo de reutilización de caché, que es la reutilización de escenas similares; y la asignación dinámica de recursos, que en realidad ajusta la profundidad del modelo en función de la complejidad del contenido específico.

Con este conjunto de optimizaciones, lograremos un resultado de 3.67 yuanes cada 5 segundos para Douyin ContentV.

3. En términos de impacto en la aplicación, la producción de video tradicional es un juego intensivo en capital: equipos, lugares, actores, postproducción; es normal que un anuncio de 30 segundos cueste cientos de miles. Ahora, la IA comprime todo este proceso a un aviso más unos minutos de espera, y puede lograr perspectivas y efectos especiales que son difíciles de alcanzar en la filmación tradicional.

Esto convierte las barreras técnicas y financieras originales de la producción de video en creatividad y estética, lo que puede promover una reestructuración de toda la economía de creadores.

Surge la pregunta, ¿cuál es la relación entre los cambios en la demanda de la tecnología de IA web2 y la IA web3?

1. Primero, el cambio en la estructura de la demanda de potencia de cómputo. Anteriormente, en la IA, la competencia se basaba en la escala; quien tuviera más clústeres homogéneos de GPU ganaría. Sin embargo, la demanda de generación de video multimodal requiere una combinación diversa de potencia de cómputo, lo que podría crear una necesidad de potencia de cómputo distribuida en reposo, así como varios modelos de ajuste fino distribuidos, algoritmos y plataformas de inferencia.

2. En segundo lugar, la demanda de etiquetado de datos también se fortalecerá. Generar un video de calidad profesional requiere: descripciones precisas de escenas, imágenes de referencia, estilos de audio, trayectorias de movimiento de cámara, condiciones de iluminación, etc., que se convertirán en nuevos requisitos profesionales de etiquetado de datos. Utilizar métodos de incentivos Web3 puede alentar a fotógrafos, ingenieros de sonido, artistas 3D y otros a proporcionar elementos de datos profesionales, mejorando la capacidad de generación de video de IA con etiquetado de datos vertical especializado.

3. Finalmente, vale la pena mencionar que cuando la IA gradualmente se desplace de la asignación de recursos a gran escala y centralizada a la colaboración modular, ella misma representará una nueva demanda de plataformas descentralizadas. En ese momento, la potencia de cálculo, los datos, los modelos, los incentivos, etc. formarán conjuntamente un volante de auto-refuerzo, que a su vez impulsará la integración de los escenarios web3AI y web2AI.

Declaración:

  1. Este artículo es reproducido de [tmel0211tmel0211],Los derechos de autor pertenecen al autor original [tmel0211] Si tiene alguna objeción a la reimpresión, por favor contáctenos Equipo de Gate LearnEl equipo lo procesará lo más rápido posible de acuerdo con los procedimientos relevantes.
  2. Descargo de responsabilidad: Las opiniones y puntos de vista expresados en este artículo son únicamente del autor y no constituyen asesoramiento de inversión.
  3. Otras versiones en otros idiomas del artículo son traducidas por el equipo de Gate Learn, a menos que se mencione lo contrario.GateBajo ninguna circunstancia se permitirán copiar, difundir o plagiar artículos traducidos.

Compartir

Empieza ahora
¡Registrarse y recibe un bono de
$100
!