近年来,大规模文本到图像扩散模型的出现极大地提升了我们基于文本生成图像的能力。这些模型能够为各种各样的提示生成逼真的图像,并展现出令人印象深刻的组合泛化能力。然而,到目前为止,扩散模型的应用几乎完全集中在图像生成上。事实上,扩散模型还能提供条件密度估计,这对于图像生成之外的任务同样有用。
在最近发表于ICCV 2023的论文《Your Diffusion Model is Secretly a Zero-Shot Classifier》中,来自卡内基梅隆大学的研究团队展示了一种新颖的方法,他们称之为Diffusion Classifier。这种方法巧妙地利用了大规模文本到图像扩散模型(如Stable Diffusion)的密度估计能力,实现了零样本分类,而无需任何额外的训练。

Diffusion Classifier的核心思想是利用扩散模型的条件密度估计能力来进行分类。具体来说,给定一张输入图像x和文本条件c,该方法使用扩散模型来选择最适合这张图像的类别。这种方法在理论上是基于扩散模型的变分视角,并使用ELBO(Evidence Lower BOund)来近似log p_θ(x|c)。
Diffusion Classifier选择能够最好地预测添加到输入图像中的噪声的条件c。这种方法可以用来从文本到图像模型(如Stable Diffusion)中提取零样本分类器,或者从类条件模型(如DiT)中提取标准分类器,而无需任何额外的训练。
研究团队在多个数据集上评估了Diffusion Classifier的零样本分类性能,包括Food101、CIFAR10、FGVC Aircraft、Oxford Pets、Oxford Flowers、STL10、ImageNet和ObjectNet。结果显示,Diffusion Classifier在许多任务上都取得了强劲的表现,甚至超过了一些竞争 方法。
例如,在ImageNet数据集上,Diffusion Classifier实现了61.4%的top-1准确率,优于基于Stable Diffusion特征训练的分类器(56.6%)和CLIP ResNet50模型(58.2%)。在ObjectNet数据集上,Diffusion Classifier的表现更加出色,达到了43.4%的准确率,远高于其他基线方法。
除了标准的分类任务,研究团队还在Winoground数据集上评估了Diffusion Classifier的视觉语言组合推理能力。Winoground是一个流行的基准测试,用于评估视觉语言模型的组合推理能力。测试要求模型能够在某些实体在描述中交换位置时,正确地匹配图像和描述。

结果显示,Diffusion Classifier在Winoground测试中显著优于CLIP和OpenCLIP等对比基线方法。这一结果尤其令人惊讶,因为Stable Diffusion使用了与OpenCLIP ViT-H/14相同的文本编码器,这意味着性能提升必定来自于更好的跨模态概念绑定。
研究团队还使用Diffusion Classifier从预训练的Diffusion Transformer (DiT)模型中提取了一个标准的1000类ImageNet分类器。DiT是一个仅在ImageNet-1k上训练的类条件扩散模型,只使用了随机水平翻转作为数据增强,没有使用任何正则化。
实验结果表明,Diffusion Classifier在这种设置下的表现可以与强大的判别式分类器(如ResNet-101和ViT-B/16)相媲美。特别是,Diffusion Classifier在ImageNet上达到了79.1%的top-1准确率,这一性能强于ResNet-101和ViT-L/32。
更值得注意的是,Diffusion Classifier展现出了更好的"有效鲁棒性"。在分布偏移的情况下,它的表现明显优于基于其在分布内准确率预期的水平。这一特性对于实际应用中的模型鲁棒性至关重要。
Diffusion Classifier的成功表明,我们可以从为生成而训练的模型中提取出强大的分类能力。这一发现不仅拓展了扩散模型的应用范围,还为零样本学习和鲁棒分类提供了新的思路。
尽管在零样本识别任务上,生成方法与判别方法之间仍存在差距,但Diffusion Classifier的多模态组合推理能力明显强于竞争的判别方法。这一优势可能源于扩散模型在训练过程中学习到的更丰富的语义信息。
未来的研究方向可能包括:
总的来说,Diffusion Classifier为使用生成模型而非判别模型进行下游任务迈出了重要一步。随着研究的深入,我们可能会看到更多基于生成模型的创新分类方法,这将为机器学习领域带来新的机遇和挑战。
🔬 如果你对Diffusion Classifier感兴趣,可以查看项目的GitHub仓库获取更多信息和代码实现。研究团队也提供了详细的使用说明和评估流程,便于其他研究者复现结果或在自己的数据集上尝试这一方法。
🎓 如果这项工作对你的研究有帮助,请考虑引用原论文:
@InProceedings{li2023diffusion,
author = {Li, Alexander C. and Prabhudesai, Mihir and Duggal, Shivam and Brown, Ellis and Pathak, Deepak},
title = {Your Diffusion Model is Secretly a Zero-Shot Classifier},
booktitle = {Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV)},
month = {October},
year = {2023},
pages = {2206-2217}
}
随着深度学习和生成模型技术的不断发展,我们期待看到更多像Diffusion Classifier这样的创新方法,它们不仅能够提高模型性能,还能为我们理解人工智能的学习过程提供新的见解。🚀🤖


全球首个AI音乐社区
音述AI是全球首个AI音乐社区,致力让每个人 都能用音乐表达自我。音述AI提供零门槛AI创作工具,独创GETI法则帮助用户精准定义音乐风格,AI润色功能支持自动优化作品质感。音述AI支持交流讨论、二次创作与价值变现。针对中文用户的语言习惯与文化背景进行专门优化,支持国风融合、C-pop等本土音乐标签,让技术更好地承载人文表达。


阿里Qoder团队推出的桌面端AI智能体
QoderWork 是阿里推出的本地优先桌面 AI 智能体,适配 macOS14+/Windows10+,以自然语言交互实现文件管理、数据分析、AI 视觉生成、浏览器自动化等办公任务,自主拆解执行复杂工作流,数据本地运行零上传,技能市场可无限扩展,是高效的 Agentic 生产力办公助手。


一站式搞定所有学习需求
不再被海量信息淹没,开始真正理解知识。Lynote 可摘要 YouTube 视频、PDF、文章等内容。即时创建笔记,检测 AI 内容并下载资料,将您的学习效率提升 10 倍。


为AI短剧协作而生
专为AI短剧协作而生的AniShort正式发布,深度重构AI短剧全流程生产模式,整合创意策划、制作执行、实时协作、在线审片、资产复用等全链路功能,独创无限画布、双轨并行工业化工作流与Ani智能体助手,集成多款主流AI大模型,破解素材零散、版本混乱、沟通低效等行业痛点,助力3人团队效率提升800%,打造标准化、可追溯的AI短剧量产体系,是AI短剧团队协同创作、提升制作效率的核心工具。


能听懂你表达的视频模型
Seedance two是基于seedance2.0的中国大模型,支持图像、视频、音频、文本四种模态输入,表达方式更丰富,生成也更可控。


国内直接访问,限时3折
输入简单文字,生成想要的图片,纳米香蕉中文站基于 Google 模型的 AI 图片生成网站,支持文字生图、图生图。官网价格限时3折活动


职场AI,就用扣子
AI办公助手,复杂任务高效处理。办公效率低?扣子空间AI助手支持播客生成、PPT制作、网页开发及报告写作,覆盖科研、商业、舆情等领域的专家Agent 7x24小时响应,生活工作无缝切换,提升50%效率!


多风格AI绘画神器
堆友平台由阿里巴巴设计团队创建,作为一款AI驱动的设计工具,专为设计师提供一站式增长服务。功能覆盖海量3D素材、AI绘画、实时渲染以及专业抠图,显著提升设计品质和效率。平台不仅提供工具,还是一个促进创意交流和个人发展的空间,界面友好,适合所有级别的设计师和创意工作者。


零代码AI应用开发平台
零代码AI应用开发平台,用户只需一句话简单描述需求,AI能自动生成小程序、APP或H5网页应用,无需编写代码。


免费创建高清无水印Sora视频
Vora是一个免费创建高清无水印Sora视频的AI工具
最新AI工具、AI资讯
独家AI资源、AI项目落地

微信扫一扫关注公众号