open_clip

OpenCLIP 项目介绍

OpenCLIP 是一个开源的实现项目，其致力于开源版本的 OpenAI CLIP（对比语言-图像预训练）模型。这个项目可以让开发者利用各种数据源与计算预算来训练多种模型，这些模型在实际应用中展现了强大而广泛的能力。

项目背景

CLIP（Contrastive Language-Image Pre-training）是 OpenAI 开发的一种模型，它通过语言与图像之间的对比学习进行预训练。这个方法让模型能够理解图像与文本的相关性，从而通过少量数据进行高效的迁移学习。

功能与优势

OpenCLIP 项目通过提供一个开源平台，让开发者可以利用多种预训练的模型来进行各种计算机视觉任务，包括但不限于图像分类、图像生成、图像搜索等功能。这些模型经过大量的数据集（如 LAION 和 DataComp）的训练，具有高度的零样本能力，即在没有见过特定数据集的情况下，仍能准确地进行预测。此外，OpenCLIP 提供了详细的模型性能报告和使用指南，帮助用户更好地进行开发与应用。

常用模型与性能

OpenCLIP 项目中包含了多种预训练模型，这些模型在 ImageNet 数据集上的零样本准确率如下：

ConvNext-Base（71.5% 准确率）
ConvNext-Large（76.9% 准确率）
ConvNext-XXLarge（79.5% 准确率）
ViT-B/32, 以及 ViT-G/14（80.1% 准确率）

这些模型均可以通过 OpenCLIP 加载使用，并且能够很好地满足不同场景下的计算需求。

使用指南

要开始使用 OpenCLIP，你只需安装相关的 Python 包：

pip install open_clip_torch

然后，可以通过以下 Python 代码来加载并测试模型：

import torch
from PIL import Image
import open_clip

model, _, preprocess = open_clip.create_model_and_transforms('ViT-B-32', pretrained='laion2b_s34b_b79k')
model.eval()
tokenizer = open_clip.get_tokenizer('ViT-B-32')

image = preprocess(Image.open("docs/CLIP.png")).unsqueeze(0)
text = tokenizer(["a diagram", "a dog", "a cat"])

with torch.no_grad(), torch.cuda.amp.autocast():
    image_features = model.encode_image(image)
    text_features = model.encode_text(text)
    image_features /= image_features.norm(dim=-1, keepdim=True)
    text_features /= text_features.norm(dim=-1, keepdim=True)

    text_probs = (100.0 * image_features @ text_features.T).softmax(dim=-1)

print("Label probs:", text_probs)