
CIFAR100是计算机视觉领域广泛使用的图像分类数据集之一。本文将详细介绍如何使用PyTorch在CIFAR100数据集上实现图像分类,涵盖从简单到复杂的多种深度学习模型,并分析它们的性能表现。
CIFAR100数据集包含60,000张32x32的彩色图像,分为100个类别,每个类别600张图像。其中50,000张用于训练,10,000张用于测试。这个数据集的特点是:
这些特点使得CIFAR100成为一个具有挑战性的图像分类任务,非常适合用来评估和比较不同的深度学习模型。
要在CIFAR100上训练模型,我们需要以下环境:
可以使用以下命令安装所需的包:
pip install torch torchvision tensorboard
PyTorch提供了方便的API来加载CIFAR100数据集:
from torchvision import datasets, transforms # 定义数据预处理 transform_train = transforms.Compose([ transforms.RandomCrop(32, padding=4), transforms.RandomHorizontalFlip(), transforms.ToTensor(), transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5)) ]) transform_test = transforms.Compose([ transforms.ToTensor(), transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5)) ]) # 加载数据集 trainset = datasets.CIFAR100(root='./data', train=True, download=True, transform=transform_train) testset = datasets.CIFAR100(root='./data', train=False, download=True, transform=transform_test) # 创建数据加载器 trainloader = torch.utils.data.DataLoader(trainset, batch_size=128, shuffle=True, num_workers=2) testloader = torch.utils.data.DataLoader(testset, batch_size=100, shuffle=False, num_workers=2)
这里我们对训练集应用了数据增强技术(随机裁剪和水平翻转),以提高模型的泛化能力。
接下来,我们将介绍几种不同复杂度的模型架构,从简单的逻辑回归到复杂的ResNet。
逻辑回归是最简单的分类模型,可以作为基线模型:
class LogisticRegression(nn.Module): def __init__(self): super(LogisticRegression, self).__init__() self.linear = nn.Linear(32*32*3, 100) def forward(self, x): x = x.view(x.size(0), -1) return self.linear(x)
一个基础的CNN模型:
class SimpleCNN(nn.Module): def __init__(self): super(SimpleCNN, self).__init__() self.conv1 = nn.Conv2d(3, 32, 3, padding=1) self.conv2 = nn.Conv2d(32, 64, 3, padding=1) self.pool = nn.MaxPool2d(2, 2) self.fc1 = nn.Linear(64 * 8 * 8, 512) self.fc2 = nn.Linear(512, 100) def forward(self, x): x = self.pool(F.relu(self.conv1(x))) x = self.pool(F.relu(self.conv2(x))) x = x.view(-1, 64 * 8 * 8) x = F.relu(self.fc1(x)) x = self.fc2(x) return x
ResNet是一种更深层的网络架构,通过残差连接解决了深度网络的梯度消失问题:
class ResidualBlock(nn.Module): def __init__(self, in_channels, out_channels, stride=1): super(ResidualBlock, self).__init__() self.conv1 = nn.Conv2d(in_channels, out_channels, kernel_size=3, stride=stride, padding=1, bias=False) self.bn1 = nn.BatchNorm2d(out_channels) self.conv2 = nn.Conv2d(out_channels, out_channels, kernel_size=3, stride=1, padding=1, bias=False) self.bn2 = nn.BatchNorm2d(out_channels) self.shortcut = nn.Sequential() if stride != 1 or in_channels != out_channels: self.shortcut = nn.Sequential( nn.Conv2d(in_channels, out_channels, kernel_size=1, stride=stride, bias=False), nn.BatchNorm2d(out_channels) ) def forward(self, x): out = F.relu(self.bn1(self.conv1(x))) out = self.bn2(self.conv2(out)) out += self.shortcut(x) out = F.relu(out) return out class ResNet18(nn.Module): def __init__(self, num_classes=100): super(ResNet18, self).__init__() self.in_channels = 64 self.conv1 = nn.Conv2d(3, 64, kernel_size=3, stride=1, padding=1, bias=False) self.bn1 = nn.BatchNorm2d(64) self.layer1 = self._make_layer(ResidualBlock, 64, 2, stride=1) self.layer2 = self._make_layer(ResidualBlock, 128, 2, stride=2) self.layer3 = self._make_layer(ResidualBlock, 256, 2, stride=2) self.layer4 = self._make_layer(ResidualBlock, 512, 2, stride=2) self.fc = nn.Linear(512, num_classes) def _make_layer(self, block, out_channels, num_blocks, stride): strides = [stride] + [1] * (num_blocks - 1) layers = [] for stride in strides: layers.append(block(self.in_channels, out_channels, stride)) self.in_channels = out_channels return nn.Sequential(*layers) def forward(self, x): out = F.relu(self.bn1(self.conv1(x))) out = self.layer1(out) out = self.layer2(out) out = self.layer3(out) out = self.layer4(out) out = F.avg_pool2d(out, 4) out = out.view(out.size(0), -1) out = self.fc(out) return out
以下是一个通用的训练函数,可以用于训练上述所有模型:
def train(model, trainloader, criterion, optimizer, device): model.train() running_loss = 0.0 correct = 0 total = 0 for batch_idx, (inputs, targets) in enumerate(trainloader): inputs, targets = inputs.to(device), targets.to(device) optimizer.zero_grad() outputs = model(inputs) loss = criterion(outputs, targets) loss.backward() optimizer.step() running_loss += loss.item() _, predicted = outputs.max(1) total += targets.size(0) correct += predicted.eq(targets).sum().item() accuracy = 100. * correct / total return running_loss / len(trainloader), accuracy def test(model, testloader, criterion, device): model.eval() test_loss = 0 correct = 0 total = 0 with torch.no_grad(): for batch_idx, (inputs, targets) in enumerate(testloader): inputs, targets = inputs.to(device), targets.to(device) outputs = model(inputs) loss = criterion(outputs, targets) test_loss += loss.item() _, predicted = outputs.max(1) total += targets.size(0) correct += predicted.eq(targets).sum().item() accuracy = 100. * correct / total return test_loss / len(testloader), accuracy
我们对上述三种模型进行了训练和测试,以下是它们在CIFAR100测试集上的表现:
| 模型 | 参数量 | Top-1 错误率 | Top-5 错误率 |
|---|---|---|---|
| 逻辑回归 | 0.3M | 82.03% | 60.56% |
| 简单CNN | 1.2M | 45.61% | 20.37% |
| ResNet18 | 11.2M | 24.39% | 6.95% |

从结果可以看出:
要进一步提高模型在CIFAR100上的性能,可以尝试以下方法:
本文介绍了如何使用PyTorch在CIFAR100数据集上实现图像分类,从简单的逻辑回归到复杂的ResNet18。我们可以看到,深度学习模型在这个具有挑战性的数据集上表现出色,特别是ResNet等深层网络架构。然而,仍有很大的改进空间,通过采用更先进的技术和模型,我们有望进一步提高分类性能。
CIFAR100作为一个中等规模的数据集,为我们提供了一个很好的平台来研究和比较不同的深度学习模型。通过在这个数据集上的实践,我们可以深入理解各种模型架构的优缺点,为解决更复杂的计算机视觉任务打下坚实的基础。

通过本文的学习和实践,读者应该能够掌握使用PyTorch在CIFAR100数据集上训练和评估不同复杂度的图像分类模型的方法。希望这些内容能为您在计算机视觉领域的研究和应用提供有价值的参考。


免费创建高清无水印Sora视频
Vora是一个免费创建高清无水印Sora视频的AI工具


最适合小白的AI自动化工作流平台
无需编码,轻松生成可复用、可变现的AI自动化工作流

大模型驱动的Excel数据处理工具
基于大模型交互的表格处理系统,允许用户通过对话方式完成数据整理和可视化分析。系统采用机器学习算法解析用户指令,自动执行排序、公式计算和数据透视等操作,支持多种文件格式导入导出。数据处理响应速度保持在0.8秒以内,支持超过100万行数据的即时分析。


AI辅助编程,代码自动修复
Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能,是提升开发效率的理想工具。


AI论文写作指导平台
AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生 成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。


AI一键生成PPT,就用博思AIPPT!
博思AIPPT,新一代的AI生成PPT平台,支持智能生成PPT、AI美化PPT、文本&链接生成PPT、导入Word/PDF/Markdown文档生成PPT等,内置海量精美PPT模板,涵盖商务、教育、科技等不同风格,同时针对每个页面提供多种版式,一键自适应切换,完美适配各种办公场景。


AI赋能电商视觉革命,一站式智能商拍平台
潮际好麦深耕服装行业,是国内AI试衣效果最好的软件。使用先进AIGC能力为电商卖家批量提供优质的、低成本的商拍图。合作品牌有Shein、Lazada、安踏、百丽等65个国内外头部品牌,以及国内10万+淘宝、天猫、京东等主流平台的品牌商家,为卖家节省将近85%的出图成本,提升约3倍出图效率,让品牌能够快速上架。


企业专属的AI法律顾问
iTerms是法大大集团旗下法律子品牌,基于最先进的大语言模型(LLM)、专业的法律知识库和强大的智能体架构,帮助企业扫清合规障碍,筑牢风控防线,成为您企业专属的AI法律顾问。


稳定高效的流量提升解决方案,助力品牌曝光
稳定高效的流量提升解决方案,助力品牌曝光


最新版Sora2模型免费使用,一键生成无水印视频
最新版Sora2模型免费使用,一键生成无水印视频
最新AI工具、AI资讯
独家AI资源、AI项目落地

微信扫一扫关注公众号