أطلقت ByteDance وجامعة تشجيانغ بشكل مشترك Vista-LLaMA ، وهو نموذج لغة كبيرة متعدد الوسائط يمكنه تفسير محتوى الفيديو

2024-01-09 05:19:41

دخلت Bit ByteDance في شراكة مع جامعة تشجيانغ لإطلاق Vista-LLaMA ، وهو نموذج لغوي كبير متعدد الوسائط مصمم لفهم محتوى الفيديو وقادر على إخراج أوصاف فيديو عالية الجودة. من خلال معالجة الرموز المرئية واللفظية المبتكرة ، يحل Vista-LLaMA مشكلة "الهلوسة" في محتوى الفيديو.

يتفوق Vista-LLaMA في العديد من معايير الأسئلة والأجوبة للفيديو المفتوح ، خاصة في اختبارات NExT-QA و MSRVTT-QA. حققت معدل دقة بنسبة 60.7٪ في اختبار NExT-QA بدون طلقة و 60.5٪ في اختبار MSRVTT-QA ، متجاوزة جميع طرق SOTA الحالية. توضح هذه النتائج كفاءة ودقة Vista-LLaMA في فهم محتوى الفيديو وإنشاء الوصف.

TOKEN-8.27%

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

تسجيلات الإعجاب 1

أعجبني
1
1
إعادة النشر
مشاركة

تعليق

0/400

TalkingAboutCurrency

· 2024-03-14 21:37

عشيق الكل في 🙌

شاهد النسخة الأصليةرد0

الموضوع
#Gate Releases August Reserves Report
14729 درجة الشعبية
#BTC Hits New ATH
101266 درجة الشعبية
#Show My Alpha Points
130569 درجة الشعبية
#ETH Countdown To A New High
6120 درجة الشعبية
#Circle Launches ARC
3208 درجة الشعبية

تثبيت

خريطة الموقع