بصرف النظر عن "الاستغراق" في توطين الذكاء الاصطناعي، فإن أكبر تغيير في قطاع الذكاء الاصطناعي مؤخرًا هو الاختراق التكنولوجي في توليد الفيديو متعدد الوسائط، الذي تطور من دعم توليد الفيديو القائم على النصوص فقط إلى تكنولوجيا توليد متكاملة تمامًا تجمع بين النصوص والصور والصوت.
إليك بعض الأمثلة على الاختراقات التكنولوجية التي يمكن للجميع تجربتها:
1) تفتح ByteDance رمز مصدر إطار العمل EX-4D: تتحول مقاطع الفيديو الأحادية على الفور إلى محتوى 4D ذو وجهات نظر حرة، بمعدل قبول من المستخدمين يبلغ 70.7%. وهذا يعني أنه بالنسبة لمقطع الفيديو العادي، يمكن للذكاء الاصطناعي تلقائيًا توليد تأثيرات العرض من أي زاوية، وهو ما كان يتطلب سابقًا فريق نمذجة ثلاثية الأبعاد محترف لتحقيقه.
2) منصة Baidu "Hui Xiang": تولد فيديو مدته 10 ثوانٍ من صورة واحدة، مدعية تحقيق جودة "مستوى الأفلام". ومع ذلك، لا يزال يتعين رؤية ما إذا كان هذا مبالغًا فيه من قبل التسويق حتى تحديث النسخة الاحترافية في أغسطس.
3) جوجل ديب مايند فيو: يمكن أن تحقق توليد فيديو بدقة 4K + مزامنة الأصوات البيئية. النقطة التكنولوجية الرئيسية هي تحقيق قدرة "المزامنة"، حيث كان سابقًا يتم دمج نظامين للفيديو والصوت. لتحقيق مطابقة حقيقية على مستوى الدلالات، يجب التغلب على تحديات كبيرة، مثل المشاهد المعقدة، حيث يجب معالجة مزامنة حركات المشي في الفيديو والأصوات الناتجة عن الخطوات.
4) محتوى Douyin: 8 مليار معلمة، 2.3 ثانية لتوليد فيديو بدقة 1080p، بتكلفة 3.67 يوان/5 ثوانٍ. بصراحة، فإن التحكم في التكلفة هذا جيد جداً، لكن حالياً، بالنظر إلى جودة التوليد، فإنه لا يزال أقل من المستوى عند مواجهة مشاهد معقدة.
لماذا يُقال إن هذه الحالات لها قيمة ومعنى كبيرين من حيث الاختراقات في جودة الفيديو وتكاليف الإنتاج وسيناريوهات التطبيق؟
1. من حيث الاختراقات في القيمة التكنولوجية، فإن تعقيد إنشاء فيديو متعدد الأنماط غالبًا ما يكون أسيًا. تتكون صورة الإطار الواحد من حوالي 10^6 بكسل، ويجب أن يضمن الفيديو اتساقًا زمنيًا (100 إطار على الأقل)، بالإضافة إلى مزامنة الصوت (10^4 نقطة عينة في الثانية)، مع مراعاة الاتساق المكاني ثلاثي الأبعاد.
باختصار، التعقيد الفني ليس منخفضًا. في الأصل، كان نموذجًا ضخمًا يتعامل مع جميع المهام بشكل مباشر. يُقال إن سُورا أحرق عشرات الآلاف من H100 لتحقيق قدرات توليد الفيديو. الآن، يمكن تحقيق ذلك من خلال التحلل التعددي والعمل التعاوني للنماذج الكبيرة. على سبيل المثال، يقوم نموذج EX-4D الخاص بـ Byte في الواقع بتقسيم المهام المعقدة إلى: وحدة تقدير العمق، وحدة تحويل وجهة النظر، وحدة التداخل الزمني، وحدة تحسين العرض، وهلم جرا. كل وحدة تتخصص في مهمة واحدة ثم تنسق من خلال آلية.
2. من حيث خفض التكاليف: فإنه يتضمن في الواقع تحسين بنية الاستدلال نفسها، بما في ذلك استراتيجية التوليد متعددة الطبقات، حيث يتم إنشاء هيكل منخفض الدقة أولاً ثم يتم تعزيز محتوى التصوير عالي الدقة؛ وآلية إعادة استخدام التخزين المؤقت، وهي إعادة استخدام مشاهد مشابهة؛ وتخصيص الموارد الديناميكي، والذي يعدل في الواقع عمق النموذج استنادًا إلى تعقيد المحتوى المحدد.
مع هذه المجموعة من التحسينات، سنحقق نتيجة قدرها 3.67 يوان لكل 5 ثوانٍ لمحتوى Douyin.
3. من حيث تأثير التطبيق، فإن إنتاج الفيديو التقليدي هو لعبة مكثفة لرأس المال: المعدات، المواقع، الممثلون، ما بعد الإنتاج؛ من الطبيعي أن يكلف إعلان مدته 30 ثانية مئات الآلاف. الآن، يقوم الذكاء الاصطناعي بضغط هذه العملية بالكامل إلى موجه بالإضافة إلى بضع دقائق من الانتظار، ويمكنه تحقيق زوايا وتأثيرات خاصة يصعب تحقيقها في التصوير التقليدي.
هذا يحول الحواجز التقنية والمالية الأصلية لإنتاج الفيديو إلى إبداع وجمالية، مما قد يعزز إعادة ترتيب الاقتصاد الإبداعي بأكمله.
تطرح السؤال، ما هي العلاقة بين التغيرات في جانب الطلب على تكنولوجيا الذكاء الاصطناعي في ويب 2 وويب 3؟
1. أولاً، التغيير في هيكل الطلب على قوة الحوسبة. سابقًا، في الذكاء الاصطناعي، كانت المنافسة تعتمد على الحجم؛ من يمتلك مجموعات GPU متجانسة أكبر سيفوز. ومع ذلك، فإن الطلب على توليد الفيديو متعدد الأنماط يتطلب مزيجًا متنوعًا من قوة الحوسبة، مما قد ينشئ حاجة لقوة حوسبة غير مستخدمة موزعة، بالإضافة إلى نماذج دقيقة موزعة مختلفة، وخوارزميات، ومنصات استنتاج.
2. ثانياً، سيزداد الطلب على تعليم البيانات أيضاً. يتطلب إنتاج فيديو بمستوى احترافي: أوصاف دقيقة للمشاهد، صور مرجعية، أنماط صوتية، مسارات حركة الكاميرا، ظروف الإضاءة، إلخ، والتي ستصبح متطلبات جديدة لتعليم البيانات المهنية. يمكن استخدام طرق التحفيز في Web3 لتشجيع المصورين، والمهندسين الصوتيين، وفناني الرسومات ثلاثية الأبعاد، وغيرهم على تقديم عناصر بيانات احترافية، مما يعزز قدرة توليد الفيديو بالذكاء الاصطناعي من خلال تعليم البيانات العمودية المتخصصة.
3. أخيرًا، يجدر بالذكر أنه عندما تنتقل الذكاء الاصطناعي تدريجيًا من تخصيص الموارد الكبيرة المركزية إلى التعاون المعياري، فإنه يمثل في حد ذاته طلبًا جديدًا على المنصات اللامركزية. في ذلك الوقت، ستشكل قوة الحوسبة والبيانات والنماذج والحوافز، وغيرها، معًا دوامة ذاتية التعزيز، والتي بدورها ستدفع دمج سيناريوهات web3AI و web2AI.
مشاركة