基于Vision Transformer的101种美食图像分类模型
该模型是基于google/vit-base-patch16-224-in21k预训练模型在food101数据集上微调的图像分类模型。采用Vision Transformer架构,经5轮训练后在评估集上达到89.13%的准确率。模型能识别101种不同类型的美食,可应用于餐饮行业的图像自动分类和识别。训练过程使用Adam优化器和线性学习率调度器,batch size为128。
视觉transformer食品图像智能分类系统
12类食品图像分类模型 准确率达96%
XLM-RoBERTa多语言食品文本分类模型
ViT架构图像分类模型实现99.23%精度
基于Vision Transformer的猫狗图像分类模型
ResNet与Vision Transformer结合的图像分类模型解析
基于自监督学习的视 觉Transformer用于图像特征提取和分类
Vision Transformer图像分类模型支持大规模数据训练
ResNet-Vision Transformer混合模型用于高精度图像分类
高效混合视觉Transformer模型用于图像分类
最新AI工具、AI资讯
独家AI资源、AI项目落地
微信扫一扫关注公众号