Bit ByteDance đã hợp tác với Đại học Chiết Giang để ra mắt Vista-LLaMA, một mô hình ngôn ngữ lớn đa phương thức được thiết kế để hiểu nội dung video và có khả năng xuất ra các mô tả video chất lượng cao. Thông qua xử lý mã thông báo bằng hình ảnh và bằng lời nói sáng tạo, Vista-LLaMA giải quyết vấn đề "ảo giác" trong nội dung video.
Vista-LLaMA vượt trội trong nhiều điểm chuẩn Hỏi & Đáp video mở, đặc biệt là trong các bài kiểm tra NExT-QA và MSRVTT-QA. Nó đạt được tỷ lệ chính xác 60,7% trong thử nghiệm NExT-QA không bắn và 60,5% trong thử nghiệm MSRVTT-QA, vượt qua tất cả các phương pháp SOTA hiện tại. Những kết quả này chứng minh hiệu quả và độ chính xác của Vista-LLaMA trong việc hiểu nội dung video và tạo mô tả.
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
ByteDance và Đại học Chiết Giang cùng ra mắt Vista-LLaMA, một mô hình ngôn ngữ lớn đa phương thức có thể diễn giải nội dung video
Bit ByteDance đã hợp tác với Đại học Chiết Giang để ra mắt Vista-LLaMA, một mô hình ngôn ngữ lớn đa phương thức được thiết kế để hiểu nội dung video và có khả năng xuất ra các mô tả video chất lượng cao. Thông qua xử lý mã thông báo bằng hình ảnh và bằng lời nói sáng tạo, Vista-LLaMA giải quyết vấn đề "ảo giác" trong nội dung video.
Vista-LLaMA vượt trội trong nhiều điểm chuẩn Hỏi & Đáp video mở, đặc biệt là trong các bài kiểm tra NExT-QA và MSRVTT-QA. Nó đạt được tỷ lệ chính xác 60,7% trong thử nghiệm NExT-QA không bắn và 60,5% trong thử nghiệm MSRVTT-QA, vượt qua tất cả các phương pháp SOTA hiện tại. Những kết quả này chứng minh hiệu quả và độ chính xác của Vista-LLaMA trong việc hiểu nội dung video và tạo mô tả.