Vision-RWKV

"Vision-RWKV：使用类RWKV架构实现高效可扩展的视觉感知"的官方实现。

新闻🚀🚀🚀

2024/04/14：我们在分类任务中支持了rwkv6，性能更高！
2024/03/04：我们发布了Vision-RWKV的代码和模型。

亮点

高分辨率效率：能够流畅处理具有全局感受野的高分辨率图像。
可扩展性：使用大规模数据集进行预训练，具备稳定的扩展能力。
卓越性能：在分类任务中取得了优于ViTs的性能。在密集预测任务中，以更低的计算量和更快的速度超越了基于窗口的ViTs，并与全局注意力ViTs相当。
高效替代：有能力成为综合视觉任务中ViT的替代主干网络。

<图片1>

概览

<图片2>

计划

支持RWKV6作为VRWKV6
发布VRWKV-L
发布VRWKV-T/S/B

模型库

预训练模型

模型	尺寸	预训练	下载
VRWKV-L	192	ImageNet-22K	检查点

图像分类（ImageNet-1K）

模型	尺寸	参数量	FLOPs	Top-1准确率	下载
VRWKV-T	224	6.2M	1.2G	75.1	检查点 \| 配置
VRWKV-S	224	23.8M	4.6G	80.1	检查点 \| 配置
VRWKV-B	224	93.7M	18.2G	82.0	检查点 \| 配置
VRWKV-L	384	334.9M	189.5G	86.0	检查点 \| 配置
VRWKV6-T	224	7.6M	1.6G	76.6	检查点 \| 配置
VRWKV6-S	224	27.7M	5.6G	81.1	检查点 \| 配置
VRWKV6-B	224	104.9M	20.9G	82.6	检查点 \| 配置

VRWKV-L在ImageNet-22K上进行预训练，然后在ImageNet-1K上进行微调。
我们使用internimage代码库训练VRWKV-L以获得更高的速度。

使用Mask-RCNN头的目标检测（COCO）

模型	参数量	浮点运算次数	边界框AP	掩码AP	下载链接
VRWKV-T	8.4M	67.9G	41.7	38.0	检查点 \| 配置
VRWKV-S	29.3M	189.9G	44.8	40.2	检查点 \| 配置
VRWKV-B	106.6M	599.0G	46.8	41.7	检查点 \| 配置
VRWKV-L	351.9M	1730.6G	50.6	44.9	检查点 \| 配置

我们在此表中报告了主干网络的参数量和浮点运算次数。

使用UperNet头部的语义分割（ADE20K数据集）

模型	参数量	浮点运算次数	平均交并比	下载链接
VRWKV-T	8.4M	16.6G	43.3	检查点 \| 配置
VRWKV-S	29.3M	46.3G	47.2	检查点 \| 配置
VRWKV-B	106.6M	146.0G	49.2	检查点 \| 配置
VRWKV-L	351.9M	421.9G	53.5	检查点 \| 配置

我们在此表中报告了主干网络的参数量和浮点运算次数。

引用

如果本工作对您的研究有所帮助，请考虑引用以下BibTeX条目。

@article{duan2024vrwkv,
  title={Vision-RWKV: Efficient and Scalable Visual Perception with RWKV-Like Architectures},
  author={Duan, Yuchen and Wang, Weiyun and Chen, Zhe and Zhu, Xizhou and Lu, Lewei and Lu, Tong and Qiao, Yu and Li, Hongsheng and Dai, Jifeng and Wang, Wenhai},
  journal={arXiv preprint arXiv:2403.02308},
  year={2024}
}