ByteDance và Đại học Chiết Giang cùng ra mắt Vista-LLaMA, một mô hình ngôn ngữ lớn đa phương thức có thể diễn giải nội dung video

2024-01-09 05:19:41

Bit ByteDance đã hợp tác với Đại học Chiết Giang để ra mắt Vista-LLaMA, một mô hình ngôn ngữ lớn đa phương thức được thiết kế để hiểu nội dung video và có khả năng xuất ra các mô tả video chất lượng cao. Thông qua xử lý mã thông báo bằng hình ảnh và bằng lời nói sáng tạo, Vista-LLaMA giải quyết vấn đề "ảo giác" trong nội dung video.

Vista-LLaMA vượt trội trong nhiều điểm chuẩn Hỏi & Đáp video mở, đặc biệt là trong các bài kiểm tra NExT-QA và MSRVTT-QA. Nó đạt được tỷ lệ chính xác 60,7% trong thử nghiệm NExT-QA không bắn và 60,5% trong thử nghiệm MSRVTT-QA, vượt qua tất cả các phương pháp SOTA hiện tại. Những kết quả này chứng minh hiệu quả và độ chính xác của Vista-LLaMA trong việc hiểu nội dung video và tạo mô tả.

TOKEN-8.27%

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

1 thích

Phần thưởng
1
1
Đăng lại
Chia sẻ

Bình luận

0/400

TalkingAboutCurrency

· 2024-03-14 21:37

Stud Tất cả trong 🙌

Xem bản gốcTrả lời0

Chủ đề
#Gate Releases August Reserves Report
15k Phổ biến
#BTC Hits New ATH
102k Phổ biến
#Show My Alpha Points
129k Phổ biến
#ETH Countdown To A New High
7k Phổ biến
#Circle Launches ARC
4k Phổ biến

Ghim

sơ đồ trang web