VLM2Vec-Full

VLM2Vec-Full

视觉语言模型VLM2Vec的多模态嵌入训练方法

VLM2Vec在Phi-3.5-V模型中引入EOS标记，实现跨多模态输入的统一嵌入表达，高效结合文本与图像。通过对比学习在MMEB-train数据集上训练，并在36个数据集上进行评估，Lora训练方式表现最佳。项目提供模型检查点及完整训练记录，供用户在GitHub仓库克隆下载，通过代码实现文本与图像的嵌入和相似度计算，助力模型运用。

Github开源项目VLM2Vec模型TIGER-Lab对比学习Huggingface视觉语言模型多模态嵌入

VisionLLM

VisionLLM

GithubVisionLLM

面向视觉任务的开放式多模态大语言模型

InternVL2-40B

InternVL2-40B

GithubHuggingface

强化跨模态大语言模型的能力

e5-v

e5-v

多模态嵌入优化框架与单模态训练策略

InternVL2-Llama3-76B

InternVL2-Llama3-76B

GithubHuggingface

融合视觉与语言的多模态AI模型

CogVLM2

CogVLM2

CogVLM2CogVLM2-Video

基于Llama3-8B的GPT4V级开源多模态模型

cogvlm-chat-hf

cogvlm-chat-hf

开源视觉语言模型CogVLM在多项跨模态基准测试中超越PaLI-X 55B

CogVLM

CogVLM

开源视觉语言模型，提升图像理解与跨模态对话功能

LVM

LVM

大规模视觉模型的创新顺序建模方法

VLM_survey

VLM_survey

GithubVision-Language Models

用于视觉任务的 AWESOME 视觉语言模型集合

LLM2Vec-Sheared-LLaMA-mntp

LLM2Vec-Sheared-LLaMA-mntp

GithubHuggingface

三步实现大模型高效文本编码

探索AI的无限可能

访问

AI工具导航精选AI信息

推荐工具精选

TRAE编程

TRAE编程

AI辅助编程，代码自动修复

扣子-AI办公

扣子-AI办公

职场AI，就用扣子

码上飞

码上飞

零代码AI应用开发平台

商汤小浣熊

商汤小浣熊

最强AI数据分析助手

讯飞绘文

讯飞绘文

选题、配图、成文，一站式创作，让内容运营更高效

讯飞绘镜

讯飞绘镜

描述即创作，短视频轻松生成

iTerms

iTerms

企业专属的AI法律顾问

AI云服务特惠

懂AI专属折扣

关注微信公众号

最新AI工具、AI资讯
独家AI资源、AI项目落地

微信公众号二维码

微信扫一扫关注公众号

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号