在人工智能和计算机视觉的快速发展中,视觉语言模型(VLMs)在图像理解和短视频分析方面取得了巨大进展。然而,当面对长视频时,这些模型往往会遇到巨大的计算挑战。近日,来自香港中文大学的研究团队提出了一种突破性的方法 - LLaMA-VID,为长视频理解开辟了新的可能性。
LLaMA-VID的核心创新在于其独特的双令牌表示方法。与传统模型不同,LLaMA-VID为每一帧视频分配两个不同的令牌:
这种双令牌策略大大减少了处理长视频时的计算负担,同时保留了关键信息。这使得LLaMA-VID能够高效地处理长达数小时的视频内容,突破了现有视觉语言模型的局限性。
LLaMA-VID的架构主要包含三个部分:
研究团队采用了多阶段的训练策略:
LLaMA-VID在多个图像和视频理解基准测试中展现出优异的性能:
图像理解任务: