RL中的扩散模型精选

这是一个关于RL中扩散模型研究论文的集合。
本仓库将持续更新以追踪扩散强化学习的前沿进展。
欢迎关注和点赞!
目录
RL中扩散模型概述
RL中的扩散模型由Janner、Michael等人在"使用扩散进行灵活行为合成的规划"中首次提出。它将轨迹优化视为一个扩散概率模型,通过迭代细化轨迹进行规划。

还有另一种方法:Wang, Z.等人在"扩散策略作为离线强化学习的表达性策略类"中提出将扩散模型作为离线RL中的策略优化。具体来说,Diffusion-QL从离线策略优化的角度将策略形成为以状态为条件的条件扩散模型。

优势
- 绕过了长期信用分配中的自举需求。
- 避免了由于折扣未来奖励而导致的不良短视行为。
- 享受语言和视觉领域广泛使用的扩散模型,这些模型易于扩展和适应多模态数据。
论文
格式:
- [标题](论文链接) [链接]
- 作者1、作者2和作者3...
- 发表方
- 关键词
- 代码
- 实验环境
Arxiv
-
3D扩散策略:通过简单的3D表示实现可泛化的视觉运动策略学习
- Yanjie Ze, Gu Zhang, Kangning Zhang, Chenyuan Hu, Muhan Wang, Huazhe Xu
- 关键词:3D扩散策略,视觉模仿学习
- 实验环境:MetaWorld, Adroit, DexArt
-
扩散演员-评论家:将约束策略迭代公式化为离线强化学习中的扩散噪声回归
- Linjiajie Fang, Ruoxue Liu, Jing Zhang, Wenjia Wang, Bing-Yi Jing
- 关键词:扩散模型,演员-评论家,离线RL
- 实验 环境:D4RL
-
NoMaD:用于导航和探索的目标遮蔽扩散策略
- Ajay Sridhar, Dhruv Shah, Catherine Glossop, Sergey Levine
- 关键词:扩散模型,离线RL
- 实验环境:真实世界机器人操作
-
IDQL:隐式Q学习作为具有扩散策略的演员-评论家方法
- Philippe Hansen-Estruch, Ilya Kostrikov, Michael Janner, Jakub Grudzien Kuba, Sergey Levine
- 关键词:扩散模型,离线RL
- 实验环境:D4RL
-
噪声往返:用于共享自主性的扩散
- Takuma Yoneda, Luzhe Sun, and Ge Yang, Bradly Stadie, Matthew Walter
- 关键词:扩散模型,模仿,机器人学
- 实验环境:2D控制、月球着陆器、月球探测器和方块推动
-
PlayFusion:通过语言注释的游戏从扩散中获取技能
- Lili Chen, Shikhar Bahl, Deepak Pathak
- 关键词:扩散模型,模仿,机器人学
- 实验环境:CALVIN、Franka厨房、语言条件Ravens
-
XSkill:跨体现技能发现
- Mengda Xu, Zhenjia Xu, Cheng Chi, Manuela Veloso, Shuran Song
- 关键词:扩散模型,模仿,机器人学
- 实验环境:真实世界机器人操作
-
用于协同人机协作任务的扩散共同策略
- Eley Ng, Ziang Liu, Monroe Kennedy III
- 关键词:扩散模型,人在环中,机器人学
- 实验环境:人在环中模拟
-
GenAug:通过生成性增强将行为重定向到未见过的情况
- Zoey Chen, Sho Kiami, Abhishek Gupta, Vikash Kumar
- 关键词:扩散模型、数据合成器、机器人学
- 实验环境:端到端视觉操作任务
-
通过语义想象经验扩展机器人学习
- Tianhe Yu, Ted Xiao, Austin Stone, Jonathan Tompson, Anthony Brohan, Su Wang, Jaspiar Singh, Clayton Tan, Dee M, Jodilyn Peralta, Brian Ichter, Karol Hausman, Fei Xia
- 关键词:扩散模型、数据合成器、机器人学
- 实验环境:机器人操作任务
-
合成经验回放
- Cong Lu, Philip J. Ball, Yee Whye Teh, Jack Parker-Holder
- 关键词:扩散模型、数据合成器
- 实验环境:D4RL
-
使用条件扩散模型进行控制的价值函数估计
- Bogdan Mazoure, Walter Talbott, Miguel Angel Bautista, Devon Hjelm, Alexander Toshev, Josh Susskind
- 关键词:扩散模型、离策略学习、离线强化学习、强化学习、机器人学
- 实验环境:D4RL
-
基于可行性引导扩散模型的安全离线强化学习
- Yinan Zheng, Jianxiong Li, Dongjie Yu, Yujie Yang, Shengbo Eben Li, Xianyuan Zhan, Jingjing Liu
- 关键词:时间无关分类器引导、安全离线强化学习
- 代码:官方
- 实验环境:DSRL
-
通过策略引导轨迹扩散的世界模型
- Marc Rigter, Jun Yamada, Ingmar Posner
- 关键词:世界模型、基于模型的强化学习、策略引导
- 实验环境:Gym MuJoCo
-
强化学习中的扩散模型:一项综述
- Zhengbang Zhu, Hanye Zhao, Haoran He, Yichao Zhong, Shenyu Zhang, Yong Yu, Weinan Zhang
- 关键词:综述
-
利用一致性策略提升连续控制
- Yuhui Chen, Haoran Li, Dongbin Zhao
- 关键词:Q学习、样本效率、一致性策略
- 实验环境:DMC、Gym MuJoCo、D4RL
-
DiffCPS:基于扩散模型的约束策略搜索用于离线强化学习
- Longxiang He, Linrui Zhang, Junbo Tan, Xueqian Wang
- 关键词:约束策略搜索、离线强化学习
- 实验环境:D4RL
-
通过扩散学习达成目标
- Vineet Jain, Siamak Ravanbakhsh
- 关键词:约束策略搜索、离线强化学习
- 实验环境:离线目标条件设置
-
AlignDiff:通过行为可定制扩散模型对齐多样化人类偏好
- Zibin Dong, Yifu Yuan, Jianye Hao, Fei Ni, Yao Mu, Yan Zheng, Yujing Hu, Tangjie Lv, Changjie Fan, Zhipeng Hu
- 关键词:RLHF、对齐、无分类器
- 实验环境:Gym MuJoCo
-
一致性模型作为强化学习的丰富高效策略类
- Zihan Ding, Chi Jin
- 关键词:一致性策略、三种典型强化学习设置
- 实验环境:D4RL、Gym MuJoCo
-
MADiff:基于扩散模型的离线多智能体学习
- Zhengbang Zhu, Minghuan Liu, Liyuan Mao, Bingyi Kang, Minkai Xu, Yong Yu, Stefano Ermon, Weinan Zhang
- 关键词:多智能体、离线强化学习、无分类器
- 实验环境:MPE、SMAC、多智能体轨迹预测(MATP)
-
用于离线强化学习分布外泛化的扩散策略
- Suzan Ece Ada, Erhan Oztop, Emre Ugur
- 关键词:离线强化学习、分布外泛化
- 实验环境:2D多模态上下文赌博机、D4RL
-
扩散策略:通过动作扩散进行视觉运动策略学习
- Cheng Chi, Siyuan Feng, Yilun Du, Zhenjia Xu, Eric Cousineau, Benjamin Burchfiel, Shuran Song
- 关键词:机器人操作
- 实验环境:Robomimic、Push-T、多模态推块、Franka厨房
-
基于扩散的3D场景生成、优化和规划
- Siyuan Huang, Zan Wang, Puhao Li, Baoxiong Jia, Tengyu Liu, Yixin Zhu, Wei Liang, Song-Chun Zhu
- 关键词:3D场景理解、优化、规划
- 代码:官方
- 实验环境:ScanNet、MultiDex、PROX
-
使用基于分数的扩散策略进行目标条件模仿学习
- Zhixuan Liang, Yao Mu, Mingyu Ding, Fei Ni, Masayoshi Tomizuka, Ping Luo
- 关键词:目标条件模仿学习、机器人学、无分类器
- 实验环境:CALVIN、Block-Push、Relay Kitchen
CVPR 2024
- 面向运动学感知多任务机器人操作的分层扩散策略
- Xiao Ma, Sumit Patidar, Iain Haughton, Stephen James
- 发表于: CVPR 2024
- 关键词: 长期任务规划, 扩散模型
- 代码: 官方
- 实验环境: RLBench
ICLR 2024
-
使用强化学习训练扩散模型
- Kevin Black, Michael Janner, Yilun Du, Ilya Kostrikov, Sergey Levine
- 发表于: ICLR 2024
- 关键词: 强化学习, RLHF, 扩散模型
- 代码: 官方
- 实验环境: 无
-
离线强化学习中的潜在扩散推理
- Siddarth Venkatraman, Shivesh Khaitan, Ravi Tej Akella, John Dolan, Jeff Schneider, Glen Berseth
- 发表于: ICLR 2024
- 关键词: 强化学习, 扩散模型
- 代码: 官方
- 实验环境: D4RL
-
DMBP: 基于扩散模型的预测器,用于抵抗状态观察扰动的鲁棒离线强化学习
- 匿名作者
- 发表于: ICLR 2024
- 关键词: 鲁棒强化学习, 离线强化学习, 扩散模型
- 代码: 官方
- 实验环境: D4RL
-
流向更好:通过生成偏好轨迹的离线基于偏好的强化学习
- Zhilong Zhang, Yihao Sun, Junyin Ye, Tianshuo Liu, Jiaji Zhang, Yang Yu
- 发表于: ICLR 2024
- 关键词: 基于偏好的强化学习, 离线强化学习, 条件生成建模, 扩散模型
- 代码: 官方
- 实验环境: D4RL,MetaWorld
-
通过扩散行为的分数正则化策略优化
- Huayu Chen, Cheng Lu, Zhengyi Wang, Hang Su, Jun Zhu
- 发表于: ICLR 2024
- 关键词: 离线强化学习, 生成模型, 扩散模型, 行为建模, 计算效率
- 代码: 官方
- 实验环境: D4RL
-
基于扩散的简单分层规划
- Chang Chen, Fei Deng, Kenji Kawaguchi, Caglar Gulcehre, Sungjin Ahn
- 发表于: ICLR 2024
- 关键词: 分层离线强化学习, 分层规划, 分层强化学习, 基于扩散的规划
- 代码: 官方
- 实验环境: D4RL
-
基于潜在扩散的高效规划
- Wenhao Li
- 发表于: ICLR 2024
- 关键词: 离线决策, 离线强化学习, 生成模型, 扩散模型
- 代码: 官方
- 实验环境: D4RL
-
通过离散扩散学习用于自动驾驶的无监督世界模型
-
AlignDiff: 通过行为可定制扩散模型对齐多样化人类偏好
- Zibin Dong, Yifu Yuan, Jianye Hao, Fei Ni, Yao Mu, Yan Zheng, Yujing Hu, Tangjie Lv, Changjie Fan, Zhipeng Hu
- 发表于: ICLR 2024
- 关键词: 强化学习; 扩散模型; RLHF; 偏好对齐
- 代码: 官方
- 实验环境: D4RL
NeurIPS 2023
-
扩散模型是多任务强化学习的有效规划器和数据合成器
- Haoran He, Chenjia Bai, Kang Xu, Zhuoran Yang, Weinan Zhang, Dong Wang, Bin Zhao, Xuelong Li
- 发表于: NeurIPS 2023
- 关键词: 多任务强化学习, 扩散模型, 规划, 数据合成
- 实验环境: D4RL
-
基于分数的人类辅助灵巧抓取原语学习
- 吴天昊、吴明东、张继尧、甘云崇、董浩
- 发表于:NeurIPS 2023
- 关键词:残差策略学习、灵巧抓取、基于分数的扩散
- 代码:官方
- 实验环境:IsaacGym
-
离线强化学习的高效扩散策略
- 康冰仪、马骁、杜超、庞天宇、颜水成
- 发表于:NeurIPS 2023
- 关键词:计算效率、离线强化学习
- 代码:官方
- 实验环境:D4RL
ICML 2023
ICLR 2023
-
条件生成建模就是决策所需的全部吗?
- Anurag Ajay、Yilun Du、Abhi Gupta、Joshua Tenenbaum、Tommi Jaakkola、Pulkit Agrawal
- 发表于:ICLR 2023
- 关键词:离线强化学习、生成模型、策略优化、无分类器
- 代码:官方
- 实验环境:D4RL
-
用扩散模型模仿人类行为
- Tim Pearce、Tabish Rashid、Anssi Kanervisto、Dave Bignell、Mingfei Sun、Raluca Georgescu、Sergio Valcarcel Macua、Shan Zheng Tan、Ida Momennejad、Katja Hofmann、Sam Devlin
- 发表于:ICLR 2023
- 关键词:离线强化学习、策略优化、模仿学习、无分类器
- 实验环境:Claw、Kitchen、CSGO
-
基于高保真生成行为建模的离线强化学习
- 陈华宇、陆成、应成洋、苏航、朱军
- 发表于:ICLR 2023
- 关键词:离线强化学习、生成模型
- 代码:官方
- 实验环境:D4RL
ICRA 2023
- 用于可控交通模拟的引导条件扩散
- Ziyuan Zhong、Davis Rempe、Danfei Xu、Yuxiao Chen、Sushant Veer、Tong Che、Baishakhi Ray、Marco Pavone
- 发表于:ICRA 2023
- 关键词:交通模拟、多智能体、无分类器
- 实验环境:nuScenes
NeurIPS 2022
ICML 2022
- 使用扩散进行规划以实现灵活的行为合成
- Michael Janner, Yilun Du, Joshua B. Tenenbaum, Sergey Levine
- 发表于:ICML 2022(长篇报告)
- 关键词:离线强化学习,基于模型的强化学习,轨迹优化,分类器引导
- 代码:官方
- 实验环境:MuJoco,D4RL
贡献
我们的目标是使这个仓库变得更好。如果您有兴趣贡献,请参考这里的贡献指南。
许可证
强化学习中的优秀扩散模型在 Apache 2.0 许可下发布。