ViP-LLaVA的多模态对话与视觉指令协同应用
ViP-LLaVA-7B是一个开源的聊天机器人,通过对LLaMA/Vicuna的图像与区域级指令数据进行微调,采用transformer架构。其主要用于多模态模型及聊天机器人研究,适合计算机视觉、自然语言处理、机器学习与人工智能领域的研究者及爱好者。该模型于2023年11月完成训练,并在四项学术区域级基准测试中表现优异。
ViP-LLaVA-7B 是一个开源的聊天机器人,由 LLaMA/Vicuna 进行微调训练,专注于图像层级和区域层级的指令数据,并配备视觉提示。这个模型基于自回归语言模型,采用了变换器架构设计。
Llama 2 在 LLAMA 2 社区许可下发布,版权所有 (c) Meta Platforms, Inc.,保留所有权利。
ViP-LLaVA-7B 的训练数据集包括:
ViP-LLaVA 在四项学术区域层级基准测试以及我们新提出的 RegionBench 中取得了先进的性能。