llava-onevision-qwen2-7b-ov-chat

LLaVA-OneVision：一个强大的多模态聊天模型

LLaVA-OneVision是一个专为聊天场景设计的最新多模态模型。这个模型基于llava-onevision-7b-ov进行了迭代DPO训练，通过人类偏好学习，使其更适合于聊天应用。

模型特点

基于SO400M和Qwen2架构
经过多阶段训练，包括预训练、中间阶段、最终图像阶段和OneVision阶段
支持英语和中文
能够处理单图像、多图像和视频输入
通过迭代DPO训练提升了聊天能力

训练过程

模型的训练经历了多个阶段：

预训练阶段：使用LCS-558K数据集，训练1个epoch
中间阶段：使用470万高质量合成数据
最终图像阶段：使用360万单图像数据
OneVision阶段：使用160万混合数据（单图像/多图像/视频）
偏好学习阶段：使用9400个问题-图像输入，通过llava-critic-7b模型生成奖励信号，进行3轮迭代DPO训练

使用方法

用户可以通过Hugging Face Transformers库轻松使用这个模型。以下是一个简单的示例代码：

from llava.model.builder import load_pretrained_model
from llava.mm_utils import process_images, tokenizer_image_token
from PIL import Image
import requests

# 加载模型
pretrained = "lmms-lab/llava-onevision-qwen2-7b-ov-chat"
tokenizer, model, image_processor, max_length = load_pretrained_model(pretrained, None, "llava_qwen")

# 准备图像
url = "https://github.com/haotian-liu/LLaVA/blob/1a91fc274d7c35a9b50b3cb29c4247ae5837ce39/images/llava_v1_5_radar.jpg?raw=true"
image = Image.open(requests.get(url, stream=True).raw)
image_tensor = process_images([image], image_processor, model.config)

# 生成回答
question = "What is shown in this image?"
# ... (省略部分代码)
cont = model.generate(input_ids, images=image_tensor, image_sizes=[image.size])
text_outputs = tokenizer.batch_decode(cont, skip_special_tokens=True)
print(text_outputs)