ByteDance и Чжэцзянский университет совместно запустили Vista-LLaMA, мультимодальную большую языковую модель, которая может интерпретировать видеоконтент

WendyCS

2024-01-09 05:19:41

Bit ByteDance в партнерстве с Чжэцзянским университетом запустила Vista-LLaMA, мультимодальную большую языковую модель, предназначенную для понимания видеоконтента и способную выводить высококачественные описания видео. Благодаря инновационной визуальной и вербальной обработке токенов, Vista-LLaMA решает проблему «галлюцинаций» в видеоконтенте.

Vista-LLaMA превосходно справляется с несколькими тестами вопросов и ответов с открытым видео, особенно в тестах NExT-QA и MSRVTT-QA. Он достиг точности 60,7% в тесте NExT-QA с нулевым выстрелом и 60,5% в тесте MSRVTT-QA, превзойдя все существующие методы SOTA. Эти результаты демонстрируют эффективность и точность Vista-LLaMA в понимании и формировании описания видеоконтента.

Посмотреть Оригинал

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.

комментарий

0/400

TalkingAboutCurrency

· 2024-03-14 21:37

Стад Олл-ин 🙌

Посмотреть ОригиналОтветить0