Vision Transformer (ViT)自问世以来在计算机视觉领域取得了巨大成功,在多个任务上超越了卷积神经网络(CNN)的表现。然而,研究人员发现ViT的特征图中存在一些不可忽视的问题 - 网格状的伪影,这些伪影严重影响了ViT在一些下游密集预测任务(如语义分割、深度估计等)中的性能。为了解决这一问题,来自南加州大学、康奈尔大学等机构的研究人员提出了Denoising Vision Transformers (DVT)方法。
DVT的核心思想是通过一个两阶段的去噪过程,有效地消除ViT特征图中的网格状伪影。这种方法不需要重新训练已有的预训练ViT模型,可以直接应用于任何ViT架构。
在第一阶段,DVT采用了一种基于神经场(neural field)的单图像优化方法。其核心思想是将ViT的输出特征分解为三个部分:
通过最小化重建误差和跨视图一致性损失,DVT可以有效地分离出干净的语义特征F(x)。这种单图像优化过程为离线应用提供了无伪影的特征估计。
在第二阶段,研究人员利用第一阶段得到的大量去噪前后的特征对{y, F},训练了一个轻量级的Transformer块作为去噪器网络D。该网络可以直接从原始ViT输出y预测无噪声特征F,即F = D(y)。这个通用去噪器具有良好的泛化能力,可以应用于未见过的图像。
DVT方法具有以下几个显著优势:
无需重新训练:DVT可以直接应用于现有的预训练ViT模型,无需昂贵的重新训练过程。
通用性强:DVT可以应用于各种ViT架构,包括DINO、DeiT-III、EVA02、CLIP、DINOv2等。
性能提升显著:在多个下游任务中,DVT consistently提升了ViT的性能。
研究人员在多个具有代表性的数据集上评估了DVT的效果,包括:
实验结果表明,DVT在所有这些任务上都取得了显著的性能提升。以DINOv2为例:
这些结果充分证明了DVT在消除ViT特征图伪影方面的有效性,以及它在提升ViT下游任务性能方面的巨大潜力。
为了更直观地理解DVT的工作原理,研究人员提供了一系列可视化结果。以DINOv2 ViT-Base模型为例:

从左到右,各列分别表示:
从这些可视化结果中,我们可以清晰地看到DVT如何有效地消除了特征图中的网格状伪影,使得特征表示更加清晰和语义一致。
DVT 的成功不仅仅局限于提升ViT在特定任务上的性能,它还揭示了ViT特征中潜在的一些有趣属性:
对象突出性:通过对去噪后特征进行PCA分析,研究人员发现第二主成分能很好地捕捉图像中主要对象的突出性。这一发现可能对无监督目标检测和分割任务有重要启示。
特征范数作为对象指示器:去噪后特征的L2范数被发现可以作为一个有效的对象指示器,这在原始ViT特征中并不明显。
改进的特征聚类:去噪后的特征在KMeans聚类时表现出更好的语义一致性,这对于无监督语义分割等任务可能有重要价值。
这些发现为ViT在更广泛的计算机视觉任务中的应用开辟了新的可能性。
Denoising Vision Transformers (DVT)为解决ViT特征图中的伪影问题提供了一个简单而有效的解决方案。通过消除这些伪影,DVT不仅显著提升了ViT在多个下游任务中的性能,还揭示了ViT特征中一些潜在的有趣属性。
这项研究工作提醒我们,尽管ViT在许多任务上取得了令人印象深刻的性能,但其内部表示仍然存在一些问题。DVT的成功也鼓励我们重新评估ViT的设计,特别是在位置编码的使用方面。
未来的研究方向可能包括:
总的来说,DVT为提升ViT的性能和可解释性开辟了一个新的研究方向,有望推动计算机视觉领域的进一步发展。研究人员已经公开了DVT的代码和模型检查点,这将有助于更多研究者和开发者在此基础上进行进一步的探索和应用。


全球首个AI音乐社区
音述AI是全球首个AI音乐社区,致力让每个人都能用音乐表达自我。音述AI提供零门槛AI创作工具,独创GETI法则帮助用户精准定义音乐风格,AI润色功能支持自动优化作品质感。音述AI支持交流讨论、二次创作与价值变现。针对中文用户的语言习惯与文化背景进行专门优化,支持国风融合、C-pop等本土音乐标签,让技术更好地承载人文表达。


阿里Qoder团队推出的桌面端AI智能体
QoderWork 是阿里推出的本地优先桌面 AI 智能体,适配 macOS14+/Windows10+,以自然语言交互实现文件管理、数据分析、AI 视觉生成、浏览器自动化等办公任务,自主拆解执行复杂工作流,数据本地运行零上传,技能市场可无限扩展,是高效的 Agentic 生产力办公助手。


一站式搞定所有学习需求
不再被海量信息淹没,开始真正理解知识。Lynote 可摘要 YouTube 视频、PDF、文章等内容。即时创建笔记,检测 AI 内容并下载资料,将您的学习效率提升 10 倍。


为AI短剧协作而生
专为AI短剧协作而生的AniShort正式发布,深度 重构AI短剧全流程生产模式,整合创意策划、制作执行、实时协作、在线审片、资产复用等全链路功能,独创无限画布、双轨并行工业化工作流与Ani智能体助手,集成多款主流AI大模型,破解素材零散、版本混乱、沟通低效等行业痛点,助力3人团队效率提升800%,打造标准化、可追溯的AI短剧量产体系,是AI短剧团队协同创作、提升制作效率的核心工具。


能听懂你表达的视频模型
Seedance two是基于seedance2.0的中国大模型,支持图像、视频、音频、文本四种模态输入,表达方式更丰富,生成也更可控。


国内直接访问,限时3折
输入简单文字,生成想要的图片,纳米香蕉中文站基于 Google 模型的 AI 图片生成网站,支持文字生图、图生图。官网价格限时3折活动


职场AI,就用扣子
AI办公助手,复杂任务高效处理。办公效率低?扣子空间AI助手支持播客生成、PPT制作、网页开发及报告写作,覆盖科研、商业、舆情等领域的专家Agent 7x24小时响应,生活工作无缝切换,提升50%效率!


多风格AI绘画神器
堆友平台由阿里巴巴设计团队创建,作为一款AI驱动的设计工具,专为设计师 提供一站式增长服务。功能覆盖海量3D素材、AI绘画、实时渲染以及专业抠图,显著提升设计品质和效率。平台不仅提供工具,还是一个促进创意交流和个人发展的空间,界面友好,适合所有级别的设计师和创意工作者。


零代码AI应用开发平台
零代码AI应用开发平台,用户只需一句话简单描述需求,AI能自动生成小程序、APP或H5网页应用,无需编写代码。


免费创建高清无水印Sora视频
Vora是一个免费创建高清无水印Sora视频的AI工具
最新AI工具、AI资讯
独家AI资源、AI项目落地

微信扫一扫关注公众号