超棒的决策变换器

GitHub 星标 GitHub 分支

这是一个**决策变换器(DT)**研究论文的集合。该仓库将持续更新以追踪 DT 的前沿进展。

欢迎关注和加星！

变换器概述

决策变换器由 Chen L. 等人在"决策变换器：通过序列建模实现强化学习"中提出。它将(离线)强化学习视为一个条件序列建模问题。

图片信息

具体而言，DT 模型是一个因果变换器模型，以期望回报、(过去)状态和动作为条件，以自回归方式生成未来动作。

优势

绕过了长期信用分配的自举需求
避免了由于对未来奖励折现而导致的不理想的短视行为
享受语言和视觉领域广泛使用的变换器模型的优势，这些模型易于扩展和适应多模态数据

综述

用变换器改造强化学习：发展轨迹
- Shengchao Hu, Li Shen, Ya Zhang, Yixin Chen, Dacheng Tao
- 出版：IEEE 模式分析与机器智能汇刊 (TPAMI)
用于序贯决策的大型序列模型：综述
- Muning Wen, Runji Lin, Hanjing Wang, Yaodong Yang, Ying Wen, Luo Mai, Jun Wang, Haifeng Zhang, Weinan Zhang
- 出版：计算机科学前沿
强化学习中的变换器：综述
- Wenzhe Li, Hao Luo, Zichuan Lin, Chongjie Zhang, Zongqing Lu, Deheng Ye
- 出版：机器学习研究汇刊 (TMLR)
强化学习中的变换器：综述
- Pranav Agarwal, Aamer Abdul Rahman, Pierre-Luc St-Charles, Simon J.D. Prince, Samira Ebrahimi Kahou

论文

格式：
- [标题](论文链接) [链接]
  - 作者1、作者2和作者3...
  - 出版方
  - 关键词 
  - 代码 
  - 实验环境

Arxiv

Context-Former：通过潜在条件序列建模进行拼接
- Ziqi Zhang, Jingzehua Xu, Zifeng Zhuang, Jinxin Liu, Donglin wang
- 关键词：DT，潜在条件序列建模
- 实验环境：D4RL
通过决策变换器实现实时网络入侵检测
- Jingdi Chen, Hanhan Zhou, Yongsheng Mei, Gina Adam, Nathaniel D. Bastian, Tian Lan
- 关键词：DT，网络入侵检测
- 实验环境：UNSW-NB15
基于偏好排序的提示调优决策变换器
- Shengchao Hu, Li Shen, Ya Zhang, Dacheng Tao
- 关键词：提示调优
- 实验环境：D4RL
图决策变换器
- Shengchao Hu, Li Shen, Ya Zhang, Dacheng Tao
- 关键词：图变换器
- 实验环境：Atari
离线强化学习能否帮助自然语言理解？
- Ziqi Zhang, Yile Wang, Yue Zhang, Donglin Wang
- 关键词：语言模型
- 实验环境：MuJoco, Maze 2D
SaFormer：一种基于条件序列建模的离线安全强化学习方法
- Qin Zhang, Linrui Zhang, Haoran Xu, Li Shen, Bowen Wang, Yongzhe Chang, Xueqian Wang, Bo Yuan, Dacheng Tao
- 关键词：离线安全强化学习，DT
- 实验环境：D4RL
离线预训练多智能体决策转换器:一个大型序列模型解决所有SMAC任务
- Linghui Meng, Muning Wen, Yaodong Yang, Chenyang Le, Xiyun Li, Weinan Zhang, Ying Wen, Haifeng Zhang, Jun Wang, Bo Xu
- 关键词: 多智能体强化学习
- 代码: 官方
- 实验环境: SMAC
基于因果反事实推理的决策转换器迁移学习
- Ayman Boustati, Hana Chockler, Daniel C. McNamee
- 关键词: 因果推理, 迁移学习
- 实验环境: MINIGRID
基于Transformer的语言条件模仿学习预训练
- Aaron L Putterman, Kevin Lu, Igor Mordatch, Pieter Abbeel
- 关键词: 文本条件决策
- 实验环境: 文本条件Frostbite(多模态基准)
用于维护决策的离线深度强化学习
- Hamed Khorasgani, Haiyan Wang, Chetan Gupta, Ahmed Farahat
- 发表: 2021年PHM学会年会
- 关键词: 离线监督强化学习, 剩余使用寿命估计
- 实验环境: NASA C-MAPSS
基于序列建模的文本游戏问答方法
- Gregory Furman, Edan Toledo, Jonathan Shock, Jan Buys
- 发表: 第三届Wordplay:语言与游戏交汇研讨会论文集(Wordplay 2022)
- 关键词: 视觉问答
- 实验环境: QAIT
维基百科能帮助离线强化学习吗?
- Machel Reid, Yutaro Yamada, Shixiang Shane Gu
- 关键词: 视觉语言导航, 迁移学习
- 代码: 官方
- 实验环境: MuJoco, D4RL, Atari
基于分布式值近似的多任务强化学习切换轨迹转换器
- Qinjie Lin, Han Liu, Biswa Sengupta
- 关键词: 多任务强化学习, 稀疏奖励
- 实验环境: MINIGRID
部分可观察强化学习的深度Transformer Q网络
- Kevin Esslinger, Robert Platt, Christopher Amato
- 关键词: POMDP, Transformer Q-学习
- 实验环境: GV, Car Flag
SimStu-Transformer:一种基于Transformer的模拟学生行为方法
- Zhaoxing Li, Lei Shi, Alexandra Cristea, Yunzhan Zhou, Chenghao Xiao, Ziqi Pan
- 关键词: 智能辅导系统
基于注意力的组合优化学习
- Carson Smith
- 关键词: 组合优化

ICML 2024

HarmoDT:用于离线强化学习的和谐多任务决策转换器
- Shengchao Hu, Ziqing Fan, Li Shen, Ya Zhang, Yanfeng Wang, Dacheng Tao
- 发表: ICML 2024
- 关键词: 多任务, 决策转换器
- 实验环境: MetaWorld
用于离线强化学习的Q值正则化Transformer
- Shengchao Hu, Ziqing Fan, Chaoqin Huang, Li Shen, Ya Zhang, Yanfeng Wang, Dacheng Tao
- 发表: ICML 2024
- 关键词: Q-学习, 决策转换器
- 实验环境: D4RL
用于离线安全强化学习的时序逻辑规范条件决策转换器
- Zijian Guo, Weichao Zhou, Wenchao Li
- 发表: ICML 2024
- 关键词: 信号时序逻辑(STL), 决策转换器
- 实验环境: DSRL
三思而后行:具有工作记忆的决策转换器
- Jikun Kang, Romain Laroche, Xingdi Yuan, Adam Trischler, Xue Liu, Jie Fu
- 发表: ICML 2024
- 关键词: 工作记忆, 决策转换器
- 实验环境: MetaWorld, Atari
上下文内决策转换器:通过分层思维链进行强化学习
- Sili Huang, Jifeng Hu, Hechang Chen, Lichao Sun, Bo Yang
- 发表: ICML 2024
- 关键词: 层次结构, 决策转换器
- 实验环境: D4RL
通过分层强化学习重新思考决策转换器
- Yi Ma, Jianye Hao, Hebin Liang, Chenjun Xiao,
- 发表: ICML 2024
- 关键词: 决策转换器, 分层强化学习
- 实验环境: D4RL

ICLR 2024

从图建模视角学习多智能体通信
- Shengchao Hu, Li Shen, Ya Zhang, Dacheng Tao
- 发表于：ICLR 2024
- 关键词：通信、序列建模
- 实验环境：SMAC
决策卷积Transformer：MetaFormer中的局部滤波足以用于决策制定
- Jeonghye Kim, Suyoung Lee, Woojun Kim, Youngchul Sung
- 关键词：MetaFormer、决策卷积Transformer
- 实验环境：D4RL, Atari
离线强化学习中何时应该优先选择决策Transformer？
- Prajjwal Bhargava, Rohan Chitnis, Alborz Geramifard, Shagun Sodhani, Amy Zhang
- 关键词：离线强化学习、序列建模、强化学习
- 实验环境：D4RL
Transformer作为决策者：通过监督预训练实现可证明的上下文内强化学习
- Licong Lin, Yu Bai, Song Mei
- 关键词：transformer、上下文学习、强化学习、学习理论
- 实验环境：随机线性赌臂问题
使用强化学习和Transformer搜索高价值分子
- Raj Ghugare, Santiago Miret, Adriana Hugessen, Mariano Phielipp, Glen Berseth
- 关键词：化学、强化学习、语言模型
- 实验环境：对接和pytdc任务

NeurIPS 2023

反馈就是你所需要的吗？在目标条件强化学习中利用自然语言反馈
- Sabrina McCallum, Max Taylor-Davies, Stefano V. Albrecht, Alessandro Suglia
- 发表于：NeurIPS 2023 Workshop
- 关键词：DT、语言反馈
- 实验环境：BabyAI
STEVE-1：Minecraft中文本到行为的生成模型
- Shalev Lifshitz, Keiran Paster, Harris Chan, Jimmy Ba, Sheila McIlraith
- 发表于：NeurIPS 2023
- 关键词：指令调优视频预训练
- 实验环境：Minecraft
Transformer作为统计学家：具有上下文算法选择的可证明上下文学习
- Yu Bai, Fan Chen, Huan Wang, Caiming Xiong, Song Mei
- 发表于：NeurIPS 2023
- 关键词：上下文学习、transformer、深度学习理论、学习理论
- 实验环境：上下文回归问题
弹性决策Transformer
- Yueh-Hua Wu, Xiaolong Wang, Masashi Hamaya
- 发表于：NeurIPS 2023
- 关键词：离线强化学习、轨迹拼接、多任务
- 实验环境：D4RL
学习在强化学习中调制预训练模型
- Thomas Schmied, Markus Hofmarcher, Fabian Paischer, Razvan Pascanu, Sepp Hochreiter
- 发表于：NeurIPS 2023 (海报展示)
- 关键词：强化学习、多任务学习、持续学习、微调
- 实验环境：MetaWorld, DMControl

CoRL 2023

Transformer是可适应的任务规划器
- Vidhi Jain, Yixin Lin, Eric Undersander, Yonatan Bisk, Akshara Rai
- 发表于：CoRL 2023
- 关键词：任务规划、提示、控制、泛化
- 代码：官方
- 实验环境：洗碗机装载
Q-Transformer
- Yevgen Chebotar, Quan Vuong, Alex Irpan, Karol Hausman, Fei Xia, Yao Lu, Aviral Kumar, Tianhe Yu, Alexander Herzog, Karl Pertsch, Keerthana Gopalakrishnan, Julian Ibarz, Ofir Nachum, Sumedh Sontakke, Grecia Salazar, Huong T Tran, Jodilyn Peralta, Clayton Tan, Deeksha Manjunath, Jaspiar Singht, Brianna Zitkovich, Tomas Jackson, Kanishka Rao, Chelsea Finn, Sergey Levine
- 发表于：CoRL 2023
- 关键词：强化学习、离线强化学习、Transformer、Q学习、机器人操作
- 代码：非官方
- 实验环境：无

IROS 2023

层次决策Transformer
- André Correia, Luís A. Alexandre
- 发表于：IROS 2023
- 关键词：层次学习、模仿学习
- 实验环境：MuJoco, D4RL, RoboMimic, Maze 2D
PACT：用于自回归机器人预训练的感知-动作因果Transformer
- Rogerio Bonatti, Sai Vemprala, Shuang Ma, Felipe Frujeri, Shuhang Chen, Ashish Kapoor
- 发表于：IROS 2023
- 关键词：机器人学、预训练、多任务、表示
- 实验环境：MuSHR汽车, Habitat

ICML 2023

用于离线安全强化学习的约束决策转换器
- Zuxin Liu, Zijian Guo, Yihang Yao, Zhepeng Cen, Wenhao Yu, Tingnan Zhang, Ding Zhao
- 发表: ICML 2023
- 关键词: 离线安全强化学习, 决策转换器
- 实验环境: Bullet-Safety-Gym
Q学习决策转换器: 利用动态规划进行离线强化学习中的条件序列建模
- Taku Yamagata, Ahmed Khalil, Raul Santos-Rodriguez
- 发表: ICML 2023
- 关键词: Q学习
- 实验环境: D4RL

ICRA 2023

LATTE: 语言轨迹转换器
- Arthur Bucker, Luis Figueredo, Sami Haddadin, Ashish Kapoor, Shuang Ma, Sai Vemprala, Rogerio Bonatti
- 发表: ICRA 2023
- 关键词: 多模态, 机器人学
- 代码: 官方, 官方
- 实验环境: CoppeliaSim

ICLR 2023

EDGI: 用于具身智能体规划的等变扩散
- Johann Brehmer, Joey Bose, Pim de Haan, Taco Cohen
- 发表: ICLR 2023 重生强化学习研讨会
- 关键词: 丰富的几何结构, 等变性, 条件生成建模, 表示
- 实验环境: 无
学习在强化学习中调制预训练模型
- Thomas Schmied, Markus Hofmarcher, Fabian Paischer, Razvan Pascanu, Sepp Hochreiter
- 发表: ICLR 2023 重生强化学习研讨会
- 关键词: 强化学习, 多任务学习, 持续学习, 微调
- 实验环境: MetaWorld, DMControl
DeFog: 在随机帧丢弃下的决策转换器
- Kaizhe Hu*, Ray Chen Zheng*, Yang Gao, Huazhe Xu
- 发表: ICLR 2023
- 关键词: 离线强化学习, POMDP, 帧丢弃, 实际应用
- 代码: 官方
- 实验环境: MuJoco, D4RL, Atari

NeurIPS 2022

何时基于回报条件的监督学习在离线强化学习中有效?
- David Brandfonbrener, Alberto Bietti, Jacob Buckman, Romain Laroche, Joan Bruna
- 发表: NeurIPS 2022
- 关键词: 理论分析
- 实验环境: MuJoco, D4RL
你不能依靠运气: 为什么决策转换器在随机环境中失败
- Keiran Paster, Sheila McIlraith, Jimmy Ba
- 发表: NeurIPS 2022
- 关键词: 随机环境
- 实验环境: 赌博, 四子棋, 2048
多智能体强化学习是一个序列建模问题
- Muning Wen, Jakub Grudzien Kuba, Runji Lin, Weinan Zhang, Ying Wen, Jun Wang, Yaodong Yang
- 发表: NeurIPS 2022
- 关键词: 多智能体强化学习
- 实验环境: SMAC, MA MuJoco
用于离线强化学习的自助法转换器
- Kerong Wang, Hanye Zhao, Xufang Luo, Kan Ren, Weinan Zhang, Dongsheng Li
- 发表: NeurIPS 2022
- 关键词: 生成模型
- 代码: 官方
- 实验环境: MuJoco, D4RL, Adroit
多游戏决策转换器
- Kuang-Huei Lee, Ofir Nachum, Mengjiao Yang, Lisa Lee, Daniel Freeman, Winnie Xu, Sergio Guadarrama, Ian Fischer, Eric Jang, Henryk Michalewski, Igor Mordatch
- 发表: NeurIPS 2022
- 关键词: 多任务, 微调
- 代码: 官方
- 实验环境: Atari, REM
将决策作为语言生成
- Roland Memisevic, Sunny Panchal, Mingu Lee
- 发表: NeurIPS 2022 FMDM研讨会
- 关键词: 生成
- 实验环境: 遍历(玩具实验)

CoRL 2022

用于可定制视觉导航的离线强化学习
- Dhruv Shah, Arjun Bhorkar, Hrishit Leen, Ilya Kostrikov, Nicholas Rhinehart, Sergey Levine
- 发表: CoRL 2022 (口头报告)
- 关键词: 视觉导航
- 实验环境: RECON
基于指令的历史感知策略用于机器人操作
- Pierre-Louis Guhur, Shizhe Chen, Ricardo Garcia, Makarand Tapaswi, Ivan Laptev, Cordelia Schmid
- 发表于: CoRL 2022 (口头报告)
- 关键词: 机器人学, 语言指令
- 代码: 官方
- 实验环境: RLBench
感知者-执行者：用于机器人操作的多任务Transformer
- Mohit Shridhar, Lucas Manuelli, Dieter Fox
- 发表于: CoRL 2022
- 关键词: 机器人学, 语言接地, 行为克隆
- 代码: 官方
- 实验环境: RLBench

ICML 2022

在线决策Transformer
- Qinqing Zheng, Amy Zhang, Aditya Grover
- 发表于: ICML 2022 (口头报告)
- 关键词: 在线微调, 最大熵, 探索
- 代码: 非官方
- 实验环境: MuJoco, D4RL
提示决策Transformer进行少样本策略泛化
- Mengdi Xu, Yikang Shen, Shun Zhang, Yuchen Lu, Ding Zhao, Joshua B. Tenenbaum, Chuang Gan
- 发表于: ICML 2022 (海报)
- 关键词: 提示, 少样本, 泛化
- 代码: 官方 (即将发布)
- 实验环境: DMC
解决强化学习序列建模中的乐观偏差问题
- Adam R Villaflor, Zhe Huang, Swapnil Pande, John M Dolan, Jeff Schneider
- 发表于: ICML 2022 (海报)
- 关键词: 世界模型
- 代码: 官方 (即将发布)
- 实验环境: CARLA
AnyMorph: 通过推断智能体形态学习可迁移策略
- Brandon Trabucco, Mariano Phielipp, Glen Berseth
- 发表于: ICML 2022 (海报)
- 关键词: 形态学, 迁移学习, 零样本
- 实验环境: Modular-RL

AAAI 2022

用Transformer做梦
- Catherine Zeng, Jordan Docter, Alexander Amini, Igor Gilitschenski, Ramin Hasani, Daniela Rus
- 发表于: AAAI 2022 (RLG研讨会)
- 关键词: Dreamer, 世界模型
- 实验环境: Deepmind Lab, VISTA

ICLR 2022

通过推断智能体形态学习可迁移策略
- Brandon Trabucco, Mariano Phielipp, Glen Berseth
- 发表于: ICLR 2022 (GPL研讨会海报)
- 关键词: 形态学, 迁移学习, 零样本
- 实验环境: Modular-RL
ManiSkill 2021银弹3D：基于示范学习和启发式规则的物体操作方法
- Yingwei Pan, Yehao Li, Yiheng Zhang, Qi Cai, Fuchen Long, Zhaofan Qiu, Ting Yao, Tao Mei
- 发表于: ICLR 2022 (GPL研讨会海报)
- 关键词: 物体操作
- 代码: 官方
- 实验环境: ManiSkill
用于离线事后信息匹配的广义决策Transformer
- Hiroki Furuta, Yutaka Matsuo, Shixiang Shane Gu
- 发表于: ICLR 2021 (Spotlight)
- 关键词: HIM, SMM
- 代码: 官方
- 实验环境: MuJoco, D4RL

NeurIPS 2021

决策Transformer：通过序列建模实现强化学习
- Lili Chen, Kevin Lu, Aravind Rajeswaran, Kimin Lee, Aditya Grover, Michael Laskin, Pieter Abbeel, Aravind Srinivas, Igor Mordatch
- 发表于: NeurIPS 2021 (海报)
- 关键词: 条件序列建模
- 代码: 官方, DI-engine
- 实验环境: MuJoco, D4RL, Atari
离线强化学习作为一个大型序列建模问题
- Michael Janner, Qiyang Li, Sergey Levine
- 发表于: NeurIPS 2021 (Spotlight)
- 关键词: 条件序列建模, 离散化
- 代码: 官方
- 实验环境: MuJoco, D4RL
TransDreamer: 利用 Transformer 世界模型的强化学习
- Chang Chen, Yi-Fu Wu, Jaesik Yoon, Sungjin Ahn
- 发表于：NeurIPS 2021 (深度强化学习研讨会)
- 关键词：Dreamer，世界模型
- 实验环境：隐藏顺序发现，DMC，Atari