fashion-clip

项目介绍：FashionCLIP

概述

FashionCLIP是一个专门为时尚行业量身定制的机器学习模型。它基于CLIP模型进行微调，专注于服装和时尚相关的数据处理。通过与大量的图像和文字配对数据进行训练，FashionCLIP能够在处理时尚领域的问题时展现出卓越的表现。无论是在图像检索、分类还是时尚解析等任务中，FashionCLIP都可以实现零样本学习，即使在没有先前见过的情况下也能成功处理新问题。

模型更新

在2023年10月3日，我们对模型进行了更新。采用laion/CLIP-ViT-B-32-laion2B-s34B-b79K这一检查点后，发现其在时尚应用中优于最初的OpenAI CLIP。因此，我们相应地微调出了性能更强的新版本——FashionCLIP 2.0，在保持架构不变的情况下大幅提升了性能。这次升级主要归功于更大量的训练数据集，达到了原OpenAI CLIP数据集的5倍。

通过对比不同模型在FMNIST、KAGL和DEEP数据集上的加权宏F1分数，我们可以确认FashionCLIP 2.0显著提升了模型的性能。

Model	FMNIST	KAGL	DEEP
OpenAI CLIP	0.66	0.63	0.45
FashionCLIP	0.74	0.67	0.48
Laion CLIP	0.78	0.71	0.58
FashionCLIP 2.0	0.83	0.73	0.62

功能与实现

FashionCLIP提供了强大的API和交互式演示工具，方便用户进行多模态检索、零样本分类以及定位等任务。用户可以通过pip安装fashion-clip包，然后通过简单的Python代码，对文本和图像进行编码，生成相应的嵌入向量。同时，提供了数据标准化的选项，使得可以根据应用需求进行灵活调整。

以下为使用FashionCLIP进行图像和文本嵌入的简单示例：

from fashion_clip.fashion_clip import FashionCLIP

fclip = FashionCLIP('fashion-clip')

image_embeddings = fclip.encode_images(images, batch_size=32)
text_embeddings = fclip.encode_text(texts, batch_size=32)

image_embeddings = image_embeddings/np.linalg.norm(image_embeddings, ord=2, axis=-1, keepdims=True)
text_embeddings = text_embeddings/np.linalg.norm(text_embeddings, ord=2, axis=-1, keepdims=True)