vip-llava-7b-hf

vip-llava-7b-hf

基于自然视觉提示的多模态语言模型

VipLLaVA在LLaVA基础上引入自然视觉提示训练机制,通过边界框和指向箭头等视觉标记增强模型的图像理解能力。作为基于Transformer架构的多模态模型,VipLLaVA支持多图像输入和复杂视觉查询处理。该模型通过微调LLaMA/Vicuna实现,可集成到transformers库中实现图像文本交互,并支持4位量化和Flash Attention 2优化部署。

ViP-LLaVAHuggingfaceGithub开源项目模型视觉语言处理多模态AIAI聊天机器人图像识别