基于SigLIP的时尚图像搜索模型实现多模态检索精准度提升
Marqo-FashionSigLIP是一个时尚领域多模态嵌 入模型,针对服装图像的文本描述、类别、风格等特征进行训练。该模型在检索准确度上较传统fashion-clip提升57%,支持主流深度学习框架,适用于电商图像搜索和商品分类场景。
Marqo-FashionSigLIP是一个多模态嵌入模型,它在时尚领域的搜索和识别方面取得了显著的性能提升。相比于传统的fashion clip模型,该模型在MRR(平均倒数排名)和召回率方面提升了高达57%的性能。
该模型基于广义对比学习(GCL)技术开发,不仅可以处理文本描述,还能识别类别、风格、颜色、材质、关键词等多维度的时尚产品特征。它是在ViT-B-16-SigLIP (webli)的基础上进行微调得到的。
这个模型提供了多种使用方式:
每种使用方式都提供了完整的代码示例,开发者可以根据具体需求选择合适的使用方式。
模型在6个公共多模态时尚数据集上进行了全面的评测,包括Atlas、DeepFashion、Fashion200k等。评测结果显示:
这些数据都显著优于FashionCLIP2.0、OpenFashionCLIP等主流模型。
该模型特别适合应用于:
其优异的性能和多样的部署方式,使其成为时尚电商领域的重要工具。
项目在GitHub上开源,并提供详细的技术文档和使用说明。同时,Marqo官方博客也提供了深入的技术解析文章,帮助开发者更好地理解和使用该模型。