ByteDance et l’Université du Zhejiang ont lancé conjointement Vista-LLaMA, un grand modèle de langage multimodal capable d’interpréter le contenu vidéo
Bit ByteDance s’est associé à l’Université du Zhejiang pour lancer Vista-LLaMA, un grand modèle de langage multimodal conçu pour la compréhension du contenu vidéo et capable de produire des descriptions vidéo de haute qualité. Grâce à un traitement visuel et verbal innovant des jetons, Vista-LLaMA résout le problème des « hallucinations » dans le contenu vidéo.
Vista-LLaMA excelle dans plusieurs tests de questions-réponses vidéo ouvertes, en particulier dans les tests NExT-QA et MSRVTT-QA. Il a atteint un taux de précision de 60,7 % dans le test NExT-QA à injection zéro et de 60,5 % dans le test MSRVTT-QA, surpassant toutes les méthodes SOTA actuelles. Ces résultats démontrent l’efficacité et la précision de Vista-LLaMA dans la compréhension du contenu vidéo et la génération de descriptions.
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
ByteDance et l’Université du Zhejiang ont lancé conjointement Vista-LLaMA, un grand modèle de langage multimodal capable d’interpréter le contenu vidéo
Bit ByteDance s’est associé à l’Université du Zhejiang pour lancer Vista-LLaMA, un grand modèle de langage multimodal conçu pour la compréhension du contenu vidéo et capable de produire des descriptions vidéo de haute qualité. Grâce à un traitement visuel et verbal innovant des jetons, Vista-LLaMA résout le problème des « hallucinations » dans le contenu vidéo.
Vista-LLaMA excelle dans plusieurs tests de questions-réponses vidéo ouvertes, en particulier dans les tests NExT-QA et MSRVTT-QA. Il a atteint un taux de précision de 60,7 % dans le test NExT-QA à injection zéro et de 60,5 % dans le test MSRVTT-QA, surpassant toutes les méthodes SOTA actuelles. Ces résultats démontrent l’efficacité et la précision de Vista-LLaMA dans la compréhension du contenu vidéo et la génération de descriptions.