InternVL2-8B

InternVL2-8B项目介绍

InternVL2-8B是OpenGVLab团队推出的多模态大语言模型系列InternVL 2.0中的一员。这是一个强大的指令微调模型,具有出色的多模态理解和生成能力。

模型架构

InternVL2-8B由以下三个主要部分组成:

视觉编码器: 使用InternViT-300M-448px作为视觉骨干网络
MLP投影层: 用于连接视觉和语言模型
语言模型: 采用internlm2_5-7b-chat作为语言骨干网络

整个模型共有约81亿参数,是一个中等规模的多模态模型。

主要特点

8K上下文窗口,可以处理长文本和多图像输入
支持视频理解,每个视频可提取16帧进行分析
具备OCR、场景文字理解等能力
在文档理解、图表分析、信息图问答等任务上表现出色
可以解决科学和数学问题
具有较强的文化理解和综合多模态能力

性能评估

InternVL2-8B在多个基准测试中展现了优秀的性能:

文档VQA: 91.6分
图表QA: 83.3分
信息图QA: 74.8分
OCR基准: 794分
MME综合: 2210.3分
AI2D: 83.8分
MMMU: 51.8分

在视频理解方面也表现不俗:

MVBench: 66.4分
Video-MME: 56.9分

这些结果表明,InternVL2-8B在多模态理解和生成任务上具有很强的竞争力。

使用方法

InternVL2-8B模型可以通过Hugging Face轻松加载和使用:

from transformers import AutoTokenizer, AutoModel

model = AutoModel.from_pretrained("OpenGVLab/InternVL2-8B",
                                  torch_dtype=torch.bfloat16,
                                  trust_remote_code=True)
model = model.eval().cuda()