RL中的扩散模型精选

GitHub stars GitHub forks

这是一个关于RL中扩散模型研究论文的集合。本仓库将持续更新以追踪扩散强化学习的前沿进展。

欢迎关注和点赞！

RL中扩散模型概述

RL中的扩散模型由Janner、Michael等人在"使用扩散进行灵活行为合成的规划"中首次提出。它将轨迹优化视为一个扩散概率模型，通过迭代细化轨迹进行规划。

图片信息

还有另一种方法：Wang, Z.等人在"扩散策略作为离线强化学习的表达性策略类"中提出将扩散模型作为离线RL中的策略优化。具体来说，Diffusion-QL从离线策略优化的角度将策略形成为以状态为条件的条件扩散模型。

图片信息

优势

绕过了长期信用分配中的自举需求。
避免了由于折扣未来奖励而导致的不良短视行为。
享受语言和视觉领域广泛使用的扩散模型，这些模型易于扩展和适应多模态数据。

论文

格式：
- [标题](论文链接) [链接]
  - 作者1、作者2和作者3...
  - 发表方
  - 关键词
  - 代码
  - 实验环境

Arxiv

3D扩散策略：通过简单的3D表示实现可泛化的视觉运动策略学习
- Yanjie Ze, Gu Zhang, Kangning Zhang, Chenyuan Hu, Muhan Wang, Huazhe Xu
- 关键词：3D扩散策略，视觉模仿学习
- 实验环境：MetaWorld, Adroit, DexArt
扩散演员-评论家：将约束策略迭代公式化为离线强化学习中的扩散噪声回归
- Linjiajie Fang, Ruoxue Liu, Jing Zhang, Wenjia Wang, Bing-Yi Jing
- 关键词：扩散模型，演员-评论家，离线RL
- 实验环境：D4RL
NoMaD：用于导航和探索的目标遮蔽扩散策略
- Ajay Sridhar, Dhruv Shah, Catherine Glossop, Sergey Levine
- 关键词：扩散模型，离线RL
- 实验环境：真实世界机器人操作
IDQL：隐式Q学习作为具有扩散策略的演员-评论家方法
- Philippe Hansen-Estruch, Ilya Kostrikov, Michael Janner, Jakub Grudzien Kuba, Sergey Levine
- 关键词：扩散模型，离线RL
- 实验环境：D4RL
噪声往返：用于共享自主性的扩散
- Takuma Yoneda, Luzhe Sun, and Ge Yang, Bradly Stadie, Matthew Walter
- 关键词：扩散模型，模仿，机器人学
- 实验环境：2D控制、月球着陆器、月球探测器和方块推动
PlayFusion：通过语言注释的游戏从扩散中获取技能
- Lili Chen, Shikhar Bahl, Deepak Pathak
- 关键词：扩散模型，模仿，机器人学
- 实验环境：CALVIN、Franka厨房、语言条件Ravens
XSkill：跨体现技能发现
- Mengda Xu, Zhenjia Xu, Cheng Chi, Manuela Veloso, Shuran Song
- 关键词：扩散模型，模仿，机器人学
- 实验环境：真实世界机器人操作
用于协同人机协作任务的扩散共同策略
- Eley Ng, Ziang Liu, Monroe Kennedy III
- 关键词：扩散模型，人在环中，机器人学
- 实验环境：人在环中模拟
GenAug：通过生成性增强将行为重定向到未见过的情况
- Zoey Chen, Sho Kiami, Abhishek Gupta, Vikash Kumar
- 关键词：扩散模型、数据合成器、机器人学
- 实验环境：端到端视觉操作任务
通过语义想象经验扩展机器人学习
- Tianhe Yu, Ted Xiao, Austin Stone, Jonathan Tompson, Anthony Brohan, Su Wang, Jaspiar Singh, Clayton Tan, Dee M, Jodilyn Peralta, Brian Ichter, Karol Hausman, Fei Xia
- 关键词：扩散模型、数据合成器、机器人学
- 实验环境：机器人操作任务
合成经验回放
- Cong Lu, Philip J. Ball, Yee Whye Teh, Jack Parker-Holder
- 关键词：扩散模型、数据合成器
- 实验环境：D4RL
使用条件扩散模型进行控制的价值函数估计
- Bogdan Mazoure, Walter Talbott, Miguel Angel Bautista, Devon Hjelm, Alexander Toshev, Josh Susskind
- 关键词：扩散模型、离策略学习、离线强化学习、强化学习、机器人学
- 实验环境：D4RL
基于可行性引导扩散模型的安全离线强化学习
- Yinan Zheng, Jianxiong Li, Dongjie Yu, Yujie Yang, Shengbo Eben Li, Xianyuan Zhan, Jingjing Liu
- 关键词：时间无关分类器引导、安全离线强化学习
- 代码：官方
- 实验环境：DSRL
通过策略引导轨迹扩散的世界模型
- Marc Rigter, Jun Yamada, Ingmar Posner
- 关键词：世界模型、基于模型的强化学习、策略引导
- 实验环境：Gym MuJoCo
强化学习中的扩散模型：一项综述
- Zhengbang Zhu, Hanye Zhao, Haoran He, Yichao Zhong, Shenyu Zhang, Yong Yu, Weinan Zhang
- 关键词：综述
利用一致性策略提升连续控制
- Yuhui Chen, Haoran Li, Dongbin Zhao
- 关键词：Q学习、样本效率、一致性策略
- 实验环境：DMC、Gym MuJoCo、D4RL
DiffCPS：基于扩散模型的约束策略搜索用于离线强化学习
- Longxiang He, Linrui Zhang, Junbo Tan, Xueqian Wang
- 关键词：约束策略搜索、离线强化学习
- 实验环境：D4RL
通过扩散学习达成目标
- Vineet Jain, Siamak Ravanbakhsh
- 关键词：约束策略搜索、离线强化学习
- 实验环境：离线目标条件设置
AlignDiff：通过行为可定制扩散模型对齐多样化人类偏好
- Zibin Dong, Yifu Yuan, Jianye Hao, Fei Ni, Yao Mu, Yan Zheng, Yujing Hu, Tangjie Lv, Changjie Fan, Zhipeng Hu
- 关键词：RLHF、对齐、无分类器
- 实验环境：Gym MuJoCo
一致性模型作为强化学习的丰富高效策略类
- Zihan Ding, Chi Jin
- 关键词：一致性策略、三种典型强化学习设置
- 实验环境：D4RL、Gym MuJoCo
MADiff：基于扩散模型的离线多智能体学习
- Zhengbang Zhu, Minghuan Liu, Liyuan Mao, Bingyi Kang, Minkai Xu, Yong Yu, Stefano Ermon, Weinan Zhang
- 关键词：多智能体、离线强化学习、无分类器
- 实验环境：MPE、SMAC、多智能体轨迹预测（MATP）
用于离线强化学习分布外泛化的扩散策略
- Suzan Ece Ada, Erhan Oztop, Emre Ugur
- 关键词：离线强化学习、分布外泛化
- 实验环境：2D多模态上下文赌博机、D4RL
扩散策略：通过动作扩散进行视觉运动策略学习
- Cheng Chi, Siyuan Feng, Yilun Du, Zhenjia Xu, Eric Cousineau, Benjamin Burchfiel, Shuran Song
- 关键词：机器人操作
- 实验环境：Robomimic、Push-T、多模态推块、Franka厨房
基于扩散的3D场景生成、优化和规划
- Siyuan Huang, Zan Wang, Puhao Li, Baoxiong Jia, Tengyu Liu, Yixin Zhu, Wei Liang, Song-Chun Zhu
- 关键词：3D场景理解、优化、规划
- 代码：官方
- 实验环境：ScanNet、MultiDex、PROX
使用基于分数的扩散策略进行目标条件模仿学习
- Zhixuan Liang, Yao Mu, Mingyu Ding, Fei Ni, Masayoshi Tomizuka, Ping Luo
- 关键词：目标条件模仿学习、机器人学、无分类器
- 实验环境：CALVIN、Block-Push、Relay Kitchen

CVPR 2024

面向运动学感知多任务机器人操作的分层扩散策略
- Xiao Ma, Sumit Patidar, Iain Haughton, Stephen James
- 发表于: CVPR 2024
- 关键词: 长期任务规划, 扩散模型
- 代码: 官方
- 实验环境: RLBench

ICLR 2024

使用强化学习训练扩散模型
- Kevin Black, Michael Janner, Yilun Du, Ilya Kostrikov, Sergey Levine
- 发表于: ICLR 2024
- 关键词: 强化学习, RLHF, 扩散模型
- 代码: 官方
- 实验环境: 无
离线强化学习中的潜在扩散推理
- Siddarth Venkatraman, Shivesh Khaitan, Ravi Tej Akella, John Dolan, Jeff Schneider, Glen Berseth
- 发表于: ICLR 2024
- 关键词: 强化学习, 扩散模型
- 代码: 官方
- 实验环境: D4RL
DMBP: 基于扩散模型的预测器，用于抵抗状态观察扰动的鲁棒离线强化学习
- 匿名作者
- 发表于: ICLR 2024
- 关键词: 鲁棒强化学习, 离线强化学习, 扩散模型
- 代码: 官方
- 实验环境: D4RL
流向更好：通过生成偏好轨迹的离线基于偏好的强化学习
- Zhilong Zhang, Yihao Sun, Junyin Ye, Tianshuo Liu, Jiaji Zhang, Yang Yu
- 发表于: ICLR 2024
- 关键词: 基于偏好的强化学习, 离线强化学习, 条件生成建模, 扩散模型
- 代码: 官方
- 实验环境: D4RL，MetaWorld
通过扩散行为的分数正则化策略优化
- Huayu Chen, Cheng Lu, Zhengyi Wang, Hang Su, Jun Zhu
- 发表于: ICLR 2024
- 关键词: 离线强化学习, 生成模型, 扩散模型, 行为建模, 计算效率
- 代码: 官方
- 实验环境: D4RL
基于扩散的简单分层规划
- Chang Chen, Fei Deng, Kenji Kawaguchi, Caglar Gulcehre, Sungjin Ahn
- 发表于: ICLR 2024
- 关键词: 分层离线强化学习, 分层规划, 分层强化学习, 基于扩散的规划
- 代码: 官方
- 实验环境: D4RL
基于潜在扩散的高效规划
- Wenhao Li
- 发表于: ICLR 2024
- 关键词: 离线决策, 离线强化学习, 生成模型, 扩散模型
- 代码: 官方
- 实验环境: D4RL
通过离散扩散学习用于自动驾驶的无监督世界模型
- Lunjun Zhang, Yuwen Xiong, Ze Yang, Sergio Casas, Rui Hu, Raquel Urtasun
- 发表于: ICLR 2024
- 关键词: 离散扩散; 世界模型; 自动驾驶
- 代码: 官方
- 实验环境: NuScenes, KITTI Odometry, Argoverse2 Lidar
AlignDiff: 通过行为可定制扩散模型对齐多样化人类偏好
- Zibin Dong, Yifu Yuan, Jianye Hao, Fei Ni, Yao Mu, Yan Zheng, Yujing Hu, Tangjie Lv, Changjie Fan, Zhipeng Hu
- 发表于: ICLR 2024
- 关键词: 强化学习; 扩散模型; RLHF; 偏好对齐
- 代码: 官方
- 实验环境: D4RL

NeurIPS 2023

扩散模型是多任务强化学习的有效规划器和数据合成器
- Haoran He, Chenjia Bai, Kang Xu, Zhuoran Yang, Weinan Zhang, Dong Wang, Bin Zhao, Xuelong Li
- 发表于: NeurIPS 2023
- 关键词: 多任务强化学习, 扩散模型, 规划, 数据合成
- 实验环境: D4RL
基于分数的人类辅助灵巧抓取原语学习
- 吴天昊、吴明东、张继尧、甘云崇、董浩
- 发表于：NeurIPS 2023
- 关键词：残差策略学习、灵巧抓取、基于分数的扩散
- 代码：官方
- 实验环境：IsaacGym
离线强化学习的高效扩散策略
- 康冰仪、马骁、杜超、庞天宇、颜水成
- 发表于：NeurIPS 2023
- 关键词：计算效率、离线强化学习
- 代码：官方
- 实验环境：D4RL

ICML 2023

通过快捷微调优化DDPM采样
- 范颖、李康旭
- 发表于：ICML 2023
- 关键词：基于强化学习的扩散模型训练、在线强化学习、采样优化
- 代码：官方
- 实验环境：CIFAR10、CelebA
MetaDiffuser：扩散模型作为离线元强化学习的条件规划器
- 倪飞、郝建烨、穆尧、袁一夫、郑岩、王斌、梁志轩
- 发表于：ICML 2023
- 关键词：离线元强化学习、条件轨迹生成、泛化、分类器引导
- 实验环境：MuJoCo
用于离线决策的分层扩散
- 李文浩、王祥丰、金波、查宏远
- 发表于：ICML 2023
- 关键词：分层离线强化学习、长期任务、无分类器
- 代码：官方
- 实验环境：MuJoCo、D4RL、NeoRL
用于离线强化学习精确能量引导扩散采样的对比能量预测
- 陆成、陈华宇、陈建飞、苏航、李崇瑄、朱军
- 发表于：ICML 2023
- 关键词：离线强化学习、约束策略优化、分类器引导
- 代码：官方
- 实验环境：MuJoco、D4RL

ICLR 2023

条件生成建模就是决策所需的全部吗？
- Anurag Ajay、Yilun Du、Abhi Gupta、Joshua Tenenbaum、Tommi Jaakkola、Pulkit Agrawal
- 发表于：ICLR 2023
- 关键词：离线强化学习、生成模型、策略优化、无分类器
- 代码：官方
- 实验环境：D4RL
用扩散模型模仿人类行为
- Tim Pearce、Tabish Rashid、Anssi Kanervisto、Dave Bignell、Mingfei Sun、Raluca Georgescu、Sergio Valcarcel Macua、Shan Zheng Tan、Ida Momennejad、Katja Hofmann、Sam Devlin
- 发表于：ICLR 2023
- 关键词：离线强化学习、策略优化、模仿学习、无分类器
- 实验环境：Claw、Kitchen、CSGO
基于高保真生成行为建模的离线强化学习
- 陈华宇、陆成、应成洋、苏航、朱军
- 发表于：ICLR 2023
- 关键词：离线强化学习、生成模型
- 代码：官方
- 实验环境：D4RL

ICRA 2023

用于可控交通模拟的引导条件扩散
- Ziyuan Zhong、Davis Rempe、Danfei Xu、Yuxiao Chen、Sushant Veer、Tong Che、Baishakhi Ray、Marco Pavone
- 发表于：ICRA 2023
- 关键词：交通模拟、多智能体、无分类器
- 实验环境：nuScenes

NeurIPS 2022

TarGF：学习目标梯度场以重新排列物体而无需明确指定目标
- 吴明东、钟方玮、夏宇龙、董浩
- 发表于：NeurIPS 2022
- 关键词：逆强化学习、目标指定、基于分数的扩散
- 代码：官方
- 实验环境：房间重排、球体重排
扩散策略作为离线强化学习的表达性策略类
- Zhendong Wang, Jonathan J Hunt, Mingyuan Zhou
- 发表于：NeurIPS 深度强化学习研讨会 2022
- 关键词：离线强化学习，策略优化
- 代码：官方，非官方
- 实验环境：MuJoco，D4RL

ICML 2022

使用扩散进行规划以实现灵活的行为合成
- Michael Janner, Yilun Du, Joshua B. Tenenbaum, Sergey Levine
- 发表于：ICML 2022（长篇报告）
- 关键词：离线强化学习，基于模型的强化学习，轨迹优化，分类器引导
- 代码：官方
- 实验环境：MuJoco，D4RL