أطلقت ByteDance وجامعة تشجيانغ بشكل مشترك Vista-LLaMA ، وهو نموذج لغة كبيرة متعدد الوسائط يمكنه تفسير محتوى الفيديو

دخلت Bit ByteDance في شراكة مع جامعة تشجيانغ لإطلاق Vista-LLaMA ، وهو نموذج لغوي كبير متعدد الوسائط مصمم لفهم محتوى الفيديو وقادر على إخراج أوصاف فيديو عالية الجودة. من خلال معالجة الرموز المرئية واللفظية المبتكرة ، يحل Vista-LLaMA مشكلة "الهلوسة" في محتوى الفيديو.

يتفوق Vista-LLaMA في العديد من معايير الأسئلة والأجوبة للفيديو المفتوح ، خاصة في اختبارات NExT-QA و MSRVTT-QA. حققت معدل دقة بنسبة 60.7٪ في اختبار NExT-QA بدون طلقة و 60.5٪ في اختبار MSRVTT-QA ، متجاوزة جميع طرق SOTA الحالية. توضح هذه النتائج كفاءة ودقة Vista-LLaMA في فهم محتوى الفيديو وإنشاء الوصف.

TOKEN-8.27%
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • 1
  • إعادة النشر
  • مشاركة
تعليق
0/400
TalkingAboutCurrencyvip
· 2024-03-14 21:37
عشيق الكل في 🙌
شاهد النسخة الأصليةرد0
  • تثبيت