Bit ByteDance співпрацює з Чжецзянським університетом, щоб запустити Vista-LLaMA, мультимодальну велику мовну модель, розроблену для розуміння відеоконтенту та здатну виводити високоякісні описи відео. Завдяки інноваційній візуальній та вербальній обробці токенів, Vista-LLaMA вирішує проблему «галюцинацій» у відеоконтенті.
Vista-LLaMA чудово справляється з безліччю тестів запитань і відповідей на відкриті відео, особливо в тестах NExT-QA і MSRVTT-QA. Він досяг показника точності 60,7% у тесті NExT-QA з нульовим пострілом і 60,5% у тесті MSRVTT-QA, перевершивши всі сучасні методи SOTA. Ці результати демонструють ефективність і точність Vista-LLaMA в розумінні та генерації опису відеоконтенту.
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
ByteDance і Чжецзянський університет спільно запустили Vista-LLaMA, мультимодальну велику мовну модель, яка може інтерпретувати відеоконтент
Bit ByteDance співпрацює з Чжецзянським університетом, щоб запустити Vista-LLaMA, мультимодальну велику мовну модель, розроблену для розуміння відеоконтенту та здатну виводити високоякісні описи відео. Завдяки інноваційній візуальній та вербальній обробці токенів, Vista-LLaMA вирішує проблему «галюцинацій» у відеоконтенті.
Vista-LLaMA чудово справляється з безліччю тестів запитань і відповідей на відкриті відео, особливо в тестах NExT-QA і MSRVTT-QA. Він досяг показника точності 60,7% у тесті NExT-QA з нульовим пострілом і 60,5% у тесті MSRVTT-QA, перевершивши всі сучасні методи SOTA. Ці результати демонструють ефективність і точність Vista-LLaMA в розумінні та генерації опису відеоконтенту.