ByteDance dan Zhejiang University bersama-sama meluncurkan Vista-LLaMA, model bahasa besar multimodal yang dapat menafsirkan konten video

Bit ByteDance telah bermitra dengan Universitas Zhejiang untuk meluncurkan Vista-LLaMA, model bahasa besar multimodal yang dirancang untuk pemahaman konten video dan mampu menghasilkan deskripsi video berkualitas tinggi. Melalui pemrosesan token visual dan verbal yang inovatif, Vista-LLaMA memecahkan masalah "halusinasi" dalam konten video.

Vista-LLaMA unggul dalam beberapa benchmark Q&A video terbuka, terutama dalam tes NExT-QA dan MSRVTT-QA. Ini mencapai tingkat akurasi 60,7% dalam tes NExT-QA zero-shot dan 60,5% dalam tes MSRVTT-QA, melampaui semua metode SOTA saat ini. Hasil ini menunjukkan efisiensi dan akurasi Vista-LLaMA dalam pemahaman konten video dan pembuatan deskripsi.

TOKEN-8.27%
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • 1
  • Posting ulang
  • Bagikan
Komentar
0/400
TalkingAboutCurrencyvip
· 2024-03-14 21:37
Pejantan Semua dalam 🙌
Lihat AsliBalas0
  • Sematkan
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)