Vision-RWKV: 高效可扩展的视觉感知新架构

Vision-RWKV

Vision-RWKV:高效可扩展的视觉感知新架构

Vision-RWKV是一种新型的视觉模型架构,由OpenGVLab团队提出,旨在实现高效、可扩展的视觉感知。该模型基于RWKV (Receptance Weighted Key Value)语言模型的思想,针对视觉任务进行了创新性的改进和优化。近日,Vision-RWKV的论文和代码已正式发布,引起了计算机视觉领域的广泛关注。

主要特点

Vision-RWKV具有以下几个突出特点:

高分辨率处理效率:通过全局感受野设计,可以流畅处理高分辨率图像,克服了传统窗口注意力方法的局限性。
优异的扩展性:在大规模数据集上预训练后,表现出良好的规模扩展稳定性。
卓越的性能:在图像分类任务中优于ViT模型,在密集预测任务中超越基于窗口的ViT,并可与全局注意力ViT相媲美,同时具有更低的计算量和更快的速度。
高效替代:有潜力成为综合视觉任务中ViT的高效替代backbone。

Vision-RWKV架构图

模型架构

Vision-RWKV的核心架构包含以下几个关键组件:

图像编码器:采用类似ViT的块堆叠设计,包含空间混合(spatial-mix)和通道混合(channel-mix)模块,用于注意力计算和特征融合。
线性复杂度双向注意力:通过创新的设计将全局注意力的计算复杂度从二次方降低到线性,大幅提升了高分辨率图像处理效率。
四向令牌移位(Q-Shift):在空间混合和通道混合模块中引入四向(上下左右)的令牌移位操作,有效扩大了感受野,增强了空间关系捕捉能力。
尺度提升稳定性:通过有界指数项和额外的层归一化等技术,解决了模型深度增加时可能出现的不稳定性问题。

这些创新设计使Vision-RWKV在保持高效计算的同时,能够实现全局感受野和强大的特征提取能力。

实验结果

Vision-RWKV在多个视觉任务上展现出了优异的性能:

图像分类:在ImageNet-1K数据集上,Vision-RWKV各种规模的模型均优于对应的ViT模型,在相近或更低的计算复杂度下实现了更高的Top-1准确率。
目标检测:在COCO数据集上,Vision-RWKV相比ViT模型在显著降低FLOPs的同时,实现了更好的检测性能,充分体现了其在密集预测任务中的优势。
语义分割:在ADE20K数据集上,Vision-RWKV同样超越了ViT模型,展示了其线性复杂度注意力机制在效率和准确性方面的优越性。

Vision-RWKV性能对比图