Bit ByteDance, video içeriğinin anlaşılması için tasarlanmış ve yüksek kaliteli video açıklamaları çıkarabilen çok modlu bir büyük dil modeli olan Vista-LLaMA'yı başlatmak için Zhejiang Üniversitesi ile ortaklık kurdu. Yenilikçi görsel ve sözel belirteç işleme sayesinde Vista-LLaMA, video içeriğindeki "halüsinasyonlar" sorununu çözer.
Vista-LLaMA, özellikle NExT-QA ve MSRVTT-QA testlerinde, çoklu açık video Soru-Cevap testlerinde üstündür. Sıfır atış NExT-QA testinde %60,7 ve MSRVTT-QA testinde %60,5 doğruluk oranı elde ederek mevcut tüm SOTA yöntemlerini geride bıraktı. Bu sonuçlar, Vista-LLaMA'nın video içeriğini anlama ve açıklama oluşturmadaki verimliliğini ve doğruluğunu göstermektedir.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
ByteDance ve Zhejiang Üniversitesi, video içeriğini yorumlayabilen çok modlu bir büyük dil modeli olan Vista-LLaMA'yı ortaklaşa başlattı
Bit ByteDance, video içeriğinin anlaşılması için tasarlanmış ve yüksek kaliteli video açıklamaları çıkarabilen çok modlu bir büyük dil modeli olan Vista-LLaMA'yı başlatmak için Zhejiang Üniversitesi ile ortaklık kurdu. Yenilikçi görsel ve sözel belirteç işleme sayesinde Vista-LLaMA, video içeriğindeki "halüsinasyonlar" sorununu çözer.
Vista-LLaMA, özellikle NExT-QA ve MSRVTT-QA testlerinde, çoklu açık video Soru-Cevap testlerinde üstündür. Sıfır atış NExT-QA testinde %60,7 ve MSRVTT-QA testinde %60,5 doğruluk oranı elde ederek mevcut tüm SOTA yöntemlerini geride bıraktı. Bu sonuçlar, Vista-LLaMA'nın video içeriğini anlama ve açıklama oluşturmadaki verimliliğini ve doğruluğunu göstermektedir.