Qwen2-VL-2B-Instruct-GPTQ-Int4

项目介绍

Qwen2-VL-2B-Instruct-GPTQ-Int4项目是Qwen2-VL的最新版本，代表了近一年的创新。该项目展示了一种多模态人工智能模型，可以同时处理图像、视频以及文本信息，实现高级的视觉理解和语言生成能力。

项目亮点

关键增强功能

先进的图像理解能力：Qwen2-VL在多个视觉理解基准测试中达到先进水平，包括MathVista、DocVQA、RealWorldQA、MTVQA等。
长时间视频理解：Qwen2-VL能够理解超过20分钟的视频，支持基于视频的高质量问答、对话和内容创作。
设备自动操作能力：它具备复杂的推理和决策能力，可以与移动设备、机器人等集成，并在视觉环境和文本指令的基础上进行自动操作。
多语言支持：为全球用户服务，支持英语、中文以及其他多种语言，如大多数欧洲语言、日语、韩语、阿拉伯语、越南语等。

模型架构更新

动态分辨率处理：Qwen2-VL可以处理任意图像分辨率，使得视觉处理更加接近人类。
多模态旋转位置嵌入(M-ROPE)：将位置嵌入分解为一维文本、二维视觉和三维视频信息，提升多模态处理能力。

性能基准

量化模型的性能

量化模型，如GPTQ和AWQ，通过多种基准测试验证其生成性能，结果显示Qwen2-VL-2B-Instruct在多个任务中的准确性非常高。

速度性能基准

在NVIDIA A100平台上，以不同上下文输入长度测试了模型的推理速度及显存占用。结果表明，Qwen2-VL-2B-Instruct在保持高推理速度的同时，能够有效降低显存占用。

使用示例

用户可以通过一个工具包轻松处理各类视觉输入，这包括base64编码，URL地址，以及联合图像和视频的处理。以下是使用transformers和qwen_vl_utils进行快速入门的代码示例：

from transformers import Qwen2VLForConditionalGeneration, AutoTokenizer, AutoProcessor
from qwen_vl_utils import process_vision_info

model = Qwen2VLForConditionalGeneration.from_pretrained(
    "Qwen/Qwen2-VL-2B-Instruct-GPTQ-Int4", torch_dtype="auto", device_map="auto"
)

processor = AutoProcessor.from_pretrained("Qwen/Qwen2-VL-2B-Instruct-GPTQ-Int4")

messages = [
    {
        "role": "user",
        "content": [
            {
                "type": "image",
                "image": "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-VL/assets/demo.jpeg",
            },
            {"type": "text", "text": "Describe this image."},
        ],
    }
]

text = processor.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
image_inputs, video_inputs = process_vision_info(messages)
inputs = processor(text=[text], images=image_inputs, videos=video_inputs, padding=True, return_tensors="pt")
inputs = inputs.to("cuda")

generated_ids = model.generate(**inputs, max_new_tokens=128)
generated_ids_trimmed = [out_ids[len(in_ids):] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)]
output_text = processor.batch_decode(generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False)
print(output_text)

局限性

虽然Qwen2-VL拥有许多强大的功能，但当前版本依然存在一些已知的局限性，包括缺乏对音频的支持、时效性问题、对个体和知识产权的有限识别能力、对复杂指令的处理能力有待提高、计数准确性不足以及空间推理能力较弱等。

引用

如果我们的工作对您有帮助，欢迎引用：

@article{Qwen2VL,
  title={Qwen2-VL: Enhancing Vision-Language Model's Perception of the World at Any Resolution},
  author={Wang, Peng et al.},
  journal={arXiv preprint arXiv:2409.12191},
  year={2024}
} 

@article{Qwen-VL,
  title={Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond},
  author={Bai, Jinze et al.},
}