ByteDance và Đại học Chiết Giang cùng ra mắt Vista-LLaMA, một mô hình ngôn ngữ lớn đa phương thức có thể diễn giải nội dung video

Bit ByteDance đã hợp tác với Đại học Chiết Giang để ra mắt Vista-LLaMA, một mô hình ngôn ngữ lớn đa phương thức được thiết kế để hiểu nội dung video và có khả năng xuất ra các mô tả video chất lượng cao. Thông qua xử lý mã thông báo bằng hình ảnh và bằng lời nói sáng tạo, Vista-LLaMA giải quyết vấn đề "ảo giác" trong nội dung video.

Vista-LLaMA vượt trội trong nhiều điểm chuẩn Hỏi & Đáp video mở, đặc biệt là trong các bài kiểm tra NExT-QA và MSRVTT-QA. Nó đạt được tỷ lệ chính xác 60,7% trong thử nghiệm NExT-QA không bắn và 60,5% trong thử nghiệm MSRVTT-QA, vượt qua tất cả các phương pháp SOTA hiện tại. Những kết quả này chứng minh hiệu quả và độ chính xác của Vista-LLaMA trong việc hiểu nội dung video và tạo mô tả.

TOKEN-8.27%
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • 1
  • Đăng lại
  • Chia sẻ
Bình luận
0/400
TalkingAboutCurrencyvip
· 2024-03-14 21:37
Stud Tất cả trong 🙌
Xem bản gốcTrả lời0
  • Ghim
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)