VLM2Vec-Full

VLM2Vec-Full

视觉语言模型VLM2Vec的多模态嵌入训练方法

VLM2Vec在Phi-3.5-V模型中引入EOS标记,实现跨多模态输入的统一嵌入表达,高效结合文本与图像。通过对比学习在MMEB-train数据集上训练,并在36个数据集上进行评估,Lora训练方式表现最佳。项目提供模型检查点及完整训练记录,供用户在GitHub仓库克隆下载,通过代码实现文本与图像的嵌入和相似度计算,助力模型运用。

Github开源项目VLM2Vec模型TIGER-Lab对比学习Huggingface视觉语言模型多模态嵌入