VisualRWKV

VisualRWKV

结合RWKV的创新视觉语言模型

VisualRWKV是一个创新的视觉语言模型,基于RWKV架构设计,可处理多样化的视觉任务。该模型采用两阶段训练策略:首先进行预训练,利用预训练数据集训练视觉编码器到RWKV的投影层;随后进行微调,通过视觉指令数据优化模型性能。项目提供完整的训练指南,涵盖数据准备、模型获取和训练流程,支持多GPU并行和不同规模RWKV模型的训练。

VisualRWKV视觉语言模型RWKV预训练微调Github开源项目

VisualRWKV:基于RWKV的视觉语言模型

<p align="center"> <img src="https://yellow-cdn.veclightyear.com/0a4dffa0/c79ff354-1fe0-4ca4-a89c-513a3c2ae47b.png" alt="Logo" width="200"> </p>

📖 论文 | 🤗 模型 | 🐰 演示

VisualRWKV是一个基于RWKV语言模型的视觉语言模型,使RWKV能够处理各种视觉任务。

VisualRWKV:探索视觉语言模型的循环神经网络 [论文]

Eagle和Finch:具有矩阵值状态和动态循环的RWKV [论文]

新闻和更新

  • 2024.06.25 🔥 VisualRWKV-6.0检查点已发布! [权重]
  • 2024.05.11 🔥 VisualRWKV-6.0代码已发布! [代码]
  • 2024.03.25 🔥 VisualRWKV-5.0已发布!

架构

<p align="center"> <img src="https://yellow-cdn.veclightyear.com/0a4dffa0/34cb5e08-f61f-40dd-b94b-58600ef52d4e.png" alt="Logo" width="800"> </p>

模型库

VisualRWKV权重、检查点和相关结果展示在以下markdown文件中[模型库]

安装

  1. 克隆此仓库并进入VisualRWKV文件夹,VisualRWKV-v6.0是稳定版本。
git clone https://github.com/howard-hou/VisualRWKV.git cd VisualRWKV-v6/v6.0
  1. 安装包
conda create -n llava python=3.10 -y conda activate visualrwkv pip install --upgrade pip # 启用PEP 660支持 #参考: pip install torch==1.13.1+cu117 --extra-index-url https://download.pytorch.org/whl/cu117 pip install pytorch-lightning==1.9.5 deepspeed==0.7.0 wandb ninja 最佳性能: pip install torch --upgrade --extra-index-url https://download.pytorch.org/whl/cu121 pip install pytorch-lightning==1.9.5 deepspeed wandb ninja --upgrade

预训练和微调

最新稳定版本是VisualRWKV-v6/v6.0,请进入VisualRWKV-v6/v6.0目录运行代码。

VisualRWKV训练包括两个阶段:

  • (1) 预训练阶段:使用预训练数据集来训练从冻结的预训练视觉编码器到冻结的RWKV的投影层;
  • (2) 微调阶段:使用视觉指令数据,教导模型遵循视觉指令。

预训练

下载 LLaVA-Pretrain 数据集

你可以下载 LLaVA-Pretrain 数据集。

下载用于预训练的 RWKV 检查点

如果你想自己进行预训练,可以从下表中的链接下载 RWKV 检查点。

VisualRWKV 版本RWKV 1B6RWKV 3BRWKV 7B
VisualRWKV-v6RWKV-x060-World-1B6RWKV-x060-World-3BRWKV-x060-World-7B

预训练命令

你可以参考以下命令来预训练 VisualRWKV-v6.0 模型。也可以查看 scripts/train 目录中的脚本。

# 这是一个使用 4 个 GPU 预训练 1B5 RWKV 模型的示例 export CUDA_VISIBLE_DEVICES=0,1,2,3 python train.py --load_model /path/to/rwkv/checkpoint \ --wandb "" --proj_dir path/to/output/ \ --data_file /path/to/LLaVA-Pretrain/blip_laion_cc_sbu_558k.json \ --data_type "json" --vocab_size 65536 \ --ctx_len 1024 --epoch_steps 1000 --epoch_count 9 --epoch_begin 0 --epoch_save 0 \ --micro_bsz 16 --accumulate_grad_batches 2 --n_layer 24 --n_embd 2048 --pre_ffn 0 \ --lr_init 1e-3 --lr_final 1e-5 --warmup_steps 0 --beta1 0.9 --beta2 0.99 --adam_eps 1e-8 \ --accelerator gpu --devices 4 --precision bf16 --strategy deepspeed_stage_1 --grad_cp 0 \ --image_folder /path/to/LLaVA-Pretrain/images/ \ --vision_tower_name /path/to/openai/clip-vit-large-patch14-336 \ --freeze_rwkv 24 --detail low --grid_size -1 --image_position first \ --enable_progress_bar True

视觉指令微调

准备数据

请参考 LLaVA 项目获取视觉指令数据。

微调命令

你可以参考以下命令来微调 VisualRWKV-v6.0 模型。也可以查看 scripts/train 目录中的脚本。

# 这是一个使用 8 个 GPU 微调 1B5 RWKV 模型的示例 export CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 python train.py --model_path path/to/pretrained-visualrwkv \ --wandb "" --proj_dir out/rwkv1b5-v060_mix665k \ --data_file /path/to/LLaVA-Instruct-150K/shuffled_llava_v1_5_mix665k.json \ --data_type "json" --vocab_size 65536 \ --ctx_len 2048 --epoch_steps 1000 --epoch_count 20 --epoch_begin 0 --epoch_save 5 \ --micro_bsz 8 --accumulate_grad_batches 2 --n_layer 24 --n_embd 2048 --pre_ffn 0 \ --lr_init 2e-5 --lr_final 2e-5 --warmup_steps 0 --beta1 0.9 --beta2 0.99 --adam_eps 1e-8 \ --accelerator gpu --devices 8 --precision bf16 --strategy deepspeed_stage_1 --grad_cp 0 \ --image_folder /path/to/LLaVA-Instruct-150K/images/ \ --vision_tower_name /path/to/openai/clip-vit-large-patch14-336 \ --freeze_rwkv 0 --freeze_proj 0 --detail low --grid_size -1 --image_position middle \ --enable_progress_bar True

编辑推荐精选

TRAE编程

TRAE编程

AI辅助编程,代码自动修复

Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能,是提升开发效率的理想工具。

热门AI工具生产力协作转型TraeAI IDE
商汤小浣熊

商汤小浣熊

最强AI数据分析助手

小浣熊家族Raccoon,您的AI智能助手,致力于通过先进的人工智能技术,为用户提供高效、便捷的智能服务。无论是日常咨询还是专业问题解答,小浣熊都能以快速、准确的响应满足您的需求,让您的生活更加智能便捷。

imini AI

imini AI

像人一样思考的AI智能体

imini 是一款超级AI智能体,能根据人类指令,自主思考、自主完成、并且交付结果的AI智能体。

Keevx

Keevx

AI数字人视频创作平台

Keevx 一款开箱即用的AI数字人视频创作平台,广泛适用于电商广告、企业培训与社媒宣传,让全球企业与个人创作者无需拍摄剪辑,就能快速生成多语言、高质量的专业视频。

即梦AI

即梦AI

一站式AI创作平台

提供 AI 驱动的图片、视频生成及数字人等功能,助力创意创作

扣子-AI办公

扣子-AI办公

AI办公助手,复杂任务高效处理

AI办公助手,复杂任务高效处理。办公效率低?扣子空间AI助手支持播客生成、PPT制作、网页开发及报告写作,覆盖科研、商业、舆情等领域的专家Agent 7x24小时响应,生活工作无缝切换,提升50%效率!

蛙蛙写作

蛙蛙写作

AI小说写作助手,一站式润色、改写、扩写

蛙蛙写作—国内先进的AI写作平台,涵盖小说、学术、社交媒体等多场景。提供续写、改写、润色等功能,助力创作者高效优化写作流程。界面简洁,功能全面,适合各类写作者提升内容品质和工作效率。

AI助手AI工具AI写作工具AI辅助写作蛙蛙写作学术助手办公助手营销助手
问小白

问小白

全能AI智能助手,随时解答生活与工作的多样问题

问小白,由元石科技研发的AI智能助手,快速准确地解答各种生活和工作问题,包括但不限于搜索、规划和社交互动,帮助用户在日常生活中提高效率,轻松管理个人事务。

聊天机器人AI助手热门AI工具AI对话
Transly

Transly

实时语音翻译/同声传译工具

Transly是一个多场景的AI大语言模型驱动的同声传译、专业翻译助手,它拥有超精准的音频识别翻译能力,几乎零延迟的使用体验和支持多国语言可以让你带它走遍全球,无论你是留学生、商务人士、韩剧美剧爱好者,还是出国游玩、多国会议、跨国追星等等,都可以满足你所有需要同传的场景需求,线上线下通用,扫除语言障碍,让全世界的语言交流不再有国界。

讯飞智文

讯飞智文

一键生成PPT和Word,让学习生活更轻松

讯飞智文是一个利用 AI 技术的项目,能够帮助用户生成 PPT 以及各类文档。无论是商业领域的市场分析报告、年度目标制定,还是学生群体的职业生涯规划、实习避坑指南,亦或是活动策划、旅游攻略等内容,它都能提供支持,帮助用户精准表达,轻松呈现各种信息。

热门AI工具AI办公办公工具讯飞智文AI在线生成PPTAI撰写助手多语种文档生成AI自动配图
下拉加载更多