mobilevit-xx-small

项目介绍: MobileViT-XX-Small

项目背景

MobileViT 是一种轻量级、低延迟的卷积神经网络，结合了 MobileNetV2 风格的层和一种新的模块。这种新模块通过使用变换器（transformer）实现了从局部处理向全局处理的转变。这一模型的图像数据在被变换器层处理之前，会被转换为扁平化的图片块（patches），然后这些图片块会被"解扁平化"回特征图。这种独特的设计允许 MobileViT 模块可以放置在任何卷积神经网络中，而且不需要任何位置嵌入。

目标用途

MobileViT 的设计非常通用，主要用于图像分类任务。用户可以使用这一基础模型进行图像分类，或者在 Hugging Face 的模型库中搜索特定任务的微调版本。目前，模型已经在 Imagenet-1k 上进行了预训练，具有很好的适用性。

如何使用

用户可以很容易地使用 PyTorch 来调用 MobileViT 模型的特征提取器和分类模型。以下是如何使用此模型对 COCO 2017 数据集的图像进行分类的代码示例：

from transformers import MobileViTFeatureExtractor, MobileViTForImageClassification
from PIL import Image
import requests

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

feature_extractor = MobileViTFeatureExtractor.from_pretrained("apple/mobilevit-xx-small")
model = MobileViTForImageClassification.from_pretrained("apple/mobilevit-xx-small")

inputs = feature_extractor(images=image, return_tensors="pt")

outputs = model(**inputs)
logits = outputs.logits

# 模型会预测出1000个ImageNet类别中的一个
predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])