DFN2B-CLIP-ViT-B-16

DFN2B-CLIP-ViT-B-16项目介绍

项目简介

DFN2B-CLIP-ViT-B-16是一个基于对比语言-图像预训练（CLIP）技术的模型。该模型在DFN-2B数据集上进行了训练，旨在通过滤过未经挑选的海量数据池，提升模型在图像及文字识别任务上的表现。数据过滤网络（Data Filtering Networks，DFNs）是一种小型网络结构，用于自动筛选大量未经挑选数据。在这次训练中，共使用了从12.8亿对未经筛选的图像-文本对中筛选出的20亿张图像。

模型详情

模型类型： 对比图像-文本，零样本图像分类。
数据集： DFN-2b数据集。
相关文献：
- 数据过滤网络
观察样本数： 12.8B

模型性能

该模型在多个公开数据集上进行了测试，表现如下：

数据集	指标
ImageNet 1k	0.76236
Caltech-101	0.942894
CIFAR-10	0.9672
CIFAR-100	0.8347
CLEVR Counts	0.232333
CLEVR Distance	0.245267
Country211	0.19545
Describable Textures	0.575532
EuroSAT	0.54
FGVC Aircraft	0.248503
Food-101	0.91303
GTSRB	0.469913
ImageNet Sketch	0.620684
ImageNet v2	0.682
ImageNet-A	0.482133
ImageNet-O	0.493
ImageNet-R	0.830967
KITTI Vehicle Distance	0.192686
MNIST	0.782
ObjectNet	0.631851
Oxford Flowers-102	0.819895
Oxford-IIIT Pet	0.936907
Pascal VOC 2007	0.788528
PatchCamelyon	0.521545
Rendered SST2	0.486546
RESISC45	0.61381
Stanford Cars	0.90735
STL-10	0.97525
SUN397	0.714162
SVHN	0.598955
Flickr	0.7728
MSCOCO	0.518773
WinoGAViL	0.541748
iWildCam	0.155574
Camelyon17	0.499283
FMoW	0.141149
Dollar Street	0.625
GeoDE	0.891023
平均值	0.609232

模型使用

在使用OpenCLIP与该模型时，开发者可以通过以下步骤进行简单的图像及文本识别：

import torch
import torch.nn.functional as F
from urllib.request import urlopen
from PIL import Image
from open_clip import create_model_from_pretrained, get_tokenizer 

model, preprocess = create_model_from_pretrained('hf-hub:apple/DFN2B-CLIP-ViT-B-16')
tokenizer = get_tokenizer('ViT-B-16')

image = Image.open(urlopen(
    'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))
image = preprocess(image).unsqueeze(0)

labels_list = ["a dog", "a cat", "a donut", "a beignet"]
text = tokenizer(labels_list, context_length=model.context_length)

with torch.no_grad(), torch.cuda.amp.autocast():
    image_features = model.encode_image(image)
    text_features = model.encode_text(text)
    image_features = F.normalize(image_features, dim=-1)
    text_features = F.normalize(text_features, dim=-1)

    text_probs = torch.sigmoid(image_features @ text_features.T * model.logit_scale.exp() + model.logit_bias)

zipped_list = list(zip(labels_list, [round(p.item(), 3) for p in text_probs[0]]))
print("Label probabilities: ", zipped_list)

引用

若使用该模型与相关技术，建议引用下列文献：

@article{fang2023data,
  title={Data Filtering Networks},
  author={Fang, Alex and Jose, Albin Madappally and Jain, Amit and Schmidt, Ludwig and Toshev, Alexander and Shankar, Vaishaal},
  journal={arXiv preprint arXiv:2309.17425},
  year={2023}
}