超棒的决策变换器


这是一个**决策变换器(DT)**研究论文的集合。
该仓库将持续更新以追踪 DT 的前沿进展。
欢迎关注和加星!
目录
变换器概述
决策变换器由 Chen L. 等人在"决策变换器:通过序列建模实现强化学习"中提出。它将(离线)强化学习视为一个条件序列建模问题。

具体而言,DT 模型是一个因果变换器模型,以期望回报、(过去)状态和动作为条件,以自回归方式生成未来动作。
<div align=center>
<img src=./dt-architecture.gif/>
</div>
优势
- 绕过了长期信用分配的自举需求
- 避免了由于对未来奖励折现而导致的不理想的短视行为
- 享受语言和视觉领域广泛使用的变换器模型的优势,这些模型易于扩展和适应多模态数据
综述
-
用变换器改造强化学习:发展轨迹
- Shengchao Hu, Li Shen, Ya Zhang, Yixin Chen, Dacheng Tao
- 出版:IEEE 模式分析与机器智能汇刊 (TPAMI)
-
用于序贯决策的大型序列模型:综述
- Muning Wen, Runji Lin, Hanjing Wang, Yaodong Yang, Ying Wen, Luo Mai, Jun Wang, Haifeng Zhang, Weinan Zhang
- 出版:计算机科学前沿
-
强化学习中的变换器:综述
- Wenzhe Li, Hao Luo, Zichuan Lin, Chongjie Zhang, Zongqing Lu, Deheng Ye
- 出版:机器学习研究汇刊 (TMLR)
-
强化学习中的变换器:综述
- Pranav Agarwal, Aamer Abdul Rahman, Pierre-Luc St-Charles, Simon J.D. Prince, Samira Ebrahimi Kahou
论文
格式:
- [标题](论文链接) [链接]
- 作者1、作者2和作者3...
- 出版方
- 关键词
- 代码
- 实验环境
Arxiv
-
Context-Former:通过潜在条件序列建模进行拼接
- Ziqi Zhang, Jingzehua Xu, Zifeng Zhuang, Jinxin Liu, Donglin wang
- 关键词:DT,潜在条件序列建模
- 实验环境:D4RL
-
通过决策变换器实现实时网络入侵检测
- Jingdi Chen, Hanhan Zhou, Yongsheng Mei, Gina Adam, Nathaniel D. Bastian, Tian Lan
- 关键词:DT,网络入侵检测
- 实验环境:UNSW-NB15
-
基于偏好排序的提示调优决策变换器
- Shengchao Hu, Li Shen, Ya Zhang, Dacheng Tao
- 关键词:提示调优
- 实验环境:D4RL
-
图决策变换器
- Shengchao Hu, Li Shen, Ya Zhang, Dacheng Tao
- 关键词:图变换器
- 实验环境:Atari
-
离线强化学习能否帮助自然语言理解?
- Ziqi Zhang, Yile Wang, Yue Zhang, Donglin Wang
- 关键词:语言模型
- 实验环境:MuJoco, Maze 2D
-
SaFormer:一种基于条件序列建模的离线安全强化学习方法
- Qin Zhang, Linrui Zhang, Haoran Xu, Li Shen, Bowen Wang, Yongzhe Chang, Xueqian Wang, Bo Yuan, Dacheng Tao
- 关键词:离线安全强化学习,DT
- 实验环境:D4RL
-
离线预训练多智能体决策转换器:一个大型序列模型解决所有SMAC任务
- Linghui Meng, Muning Wen, Yaodong Yang, Chenyang Le, Xiyun Li, Weinan Zhang, Ying Wen, Haifeng Zhang, Jun Wang, Bo Xu
- 关键词: 多智能体强化学习
- 代码: 官方
- 实验环境: SMAC
-
基于因果反事实推理的决策转换器迁移学习
- Ayman Boustati, Hana Chockler, Daniel C. McNamee
- 关键词: 因果推理, 迁移学习
- 实验环境: MINIGRID
-
基于Transformer的语言条件模仿学习预训练
- Aaron L Putterman, Kevin Lu, Igor Mordatch, Pieter Abbeel
- 关键词: 文本条件决策
- 实验环境: 文本条件Frostbite(多模态基准)
-
用于维护决策的离线深度强化学习
- Hamed Khorasgani, Haiyan Wang, Chetan Gupta, Ahmed Farahat
- 发表: 2021年PHM学会年会
- 关键词: 离线监督强化学习, 剩余使用寿命估计
- 实验环境: NASA C-MAPSS
-
基于序列建模的文本游戏问答方法
- Gregory Furman, Edan Toledo, Jonathan Shock, Jan Buys
- 发表: 第三届Wordplay:语言与游戏交汇研讨会论文集(Wordplay 2022)
- 关键词: 视觉问答
- 实验环境: QAIT
-
维基百科能帮助离线强化学习吗?
- Machel Reid, Yutaro Yamada, Shixiang Shane Gu
- 关键词: 视觉语言导航, 迁移学习
- 代码: 官方
- 实验环境: MuJoco, D4RL, Atari
-
基于分布式值近似的多任务强化学习切换轨迹转换器
- Qinjie Lin, Han Liu, Biswa Sengupta
- 关键词: 多任务强化学习, 稀疏奖励
- 实验环境: MINIGRID
-
部分可观察强化学习的深度Transformer Q网络
- Kevin Esslinger, Robert Platt, Christopher Amato
- 关键词: POMDP, Transformer Q-学习
- 实验环境: GV, Car Flag
-
SimStu-Transformer:一种基于Transformer的模拟学生行为方法
- Zhaoxing Li, Lei Shi, Alexandra Cristea, Yunzhan Zhou, Chenghao Xiao, Ziqi Pan
- 关键词: 智能辅导系统
-
基于注意力的组合优化学习
ICML 2024
ICLR 2024
-
从图建模视角学习多智能体通信
- Shengchao Hu, Li Shen, Ya Zhang, Dacheng Tao
- 发表于:ICLR 2024
- 关键词:通信、序列建模
- 实验环境:SMAC
-
决策卷积Transformer:MetaFormer中的局部滤波足以用于决策制定
- Jeonghye Kim, Suyoung Lee, Woojun Kim, Youngchul Sung
- 关键词:MetaFormer、决策卷积Transformer
- 实验环境:D4RL, Atari
-
离线强化学习中何时应该优先选择决策Transformer?
- Prajjwal Bhargava, Rohan Chitnis, Alborz Geramifard, Shagun Sodhani, Amy Zhang
- 关键词:离线强化学习、序列建模、强化学习
- 实验环境:D4RL
-
Transformer作为决策者:通过监督预训练实现可证明的上下文内强化学习
- Licong Lin, Yu Bai, Song Mei
- 关键词:transformer、上下文学习、强化学习、学习理论
- 实验环境:随机线性赌臂问题
-
使用强化学习和Transformer搜索高价值分子
- Raj Ghugare, Santiago Miret, Adriana Hugessen, Mariano Phielipp, Glen Berseth
- 关键词:化学、强化学习、语言模型
- 实验环境:对接和pytdc任务
NeurIPS 2023
-
反馈就是你所需要的吗?在目标条件强化学习中利用自然语言反馈
- Sabrina McCallum, Max Taylor-Davies, Stefano V. Albrecht, Alessandro Suglia
- 发表于:NeurIPS 2023 Workshop
- 关键词:DT、语言反馈
- 实验环境:BabyAI
-
STEVE-1:Minecraft中文本到行为的生成模型
- Shalev Lifshitz, Keiran Paster, Harris Chan, Jimmy Ba, Sheila McIlraith
- 发表于:NeurIPS 2023
- 关键词:指令调优视频预训练
- 实验环境:Minecraft
-
Transformer作为统计学家:具有上下文算法选择的可证明上下文学习
- Yu Bai, Fan Chen, Huan Wang, Caiming Xiong, Song Mei
- 发表于:NeurIPS 2023
- 关键词:上下文学习、transformer、深度学习理论、学习理论
- 实验环境:上下文回归问题
-
弹性决策Transformer
- Yueh-Hua Wu, Xiaolong Wang, Masashi Hamaya
- 发表于:NeurIPS 2023
- 关键词:离线强化学习、轨迹拼接、多任务
- 实验环境:D4RL
-
学习在强化学习中调制预训练模型
- Thomas Schmied, Markus Hofmarcher, Fabian Paischer, Razvan Pascanu, Sepp Hochreiter
- 发表于:NeurIPS 2023 (海报展示)
- 关键词:强化学习、多任务学习、持续学习、微调
- 实验环境:MetaWorld, DMControl
CoRL 2023
-
Transformer是可适应的任务规划器
- Vidhi Jain, Yixin Lin, Eric Undersander, Yonatan Bisk, Akshara Rai
- 发表于:CoRL 2023
- 关键词:任务规划、提示、控制、泛化
- 代码:官方
- 实验环境:洗碗机装载
-
Q-Transformer
- Yevgen Chebotar, Quan Vuong, Alex Irpan, Karol Hausman, Fei Xia, Yao Lu, Aviral Kumar, Tianhe Yu, Alexander Herzog, Karl Pertsch, Keerthana Gopalakrishnan, Julian Ibarz, Ofir Nachum, Sumedh Sontakke, Grecia Salazar, Huong T Tran, Jodilyn Peralta, Clayton Tan, Deeksha Manjunath, Jaspiar Singht, Brianna Zitkovich, Tomas Jackson, Kanishka Rao, Chelsea Finn, Sergey Levine
- 发表于:CoRL 2023
- 关键词:强化学习、离线强化学习、Transformer、Q学习、机器人操作
- 代码:非官方
- 实验环境:无
IROS 2023
ICML 2023
ICRA 2023
- LATTE: 语言轨迹转换器
- Arthur Bucker, Luis Figueredo, Sami Haddadin, Ashish Kapoor, Shuang Ma, Sai Vemprala, Rogerio Bonatti
- 发表: ICRA 2023
- 关键词: 多模态, 机器人学
- 代码: 官方, 官方
- 实验环境: CoppeliaSim
ICLR 2023
-
EDGI: 用于具身智能体规划的等变扩散
- Johann Brehmer, Joey Bose, Pim de Haan, Taco Cohen
- 发表: ICLR 2023 重生强化学习研讨会
- 关键词: 丰富的几何结构, 等变性, 条件生成建模, 表示
- 实验环境: 无
-
学习在强化学习中调制预训练模型
- Thomas Schmied, Markus Hofmarcher, Fabian Paischer, Razvan Pascanu, Sepp Hochreiter
- 发表: ICLR 2023 重生强化学习研讨会
- 关键词: 强化学习, 多任务学习, 持续学习, 微调
- 实验环境: MetaWorld, DMControl
-
DeFog: 在随机帧丢弃下的决策转换器
- Kaizhe Hu*, Ray Chen Zheng*, Yang Gao, Huazhe Xu
- 发表: ICLR 2023
- 关键词: 离线强化学习, POMDP, 帧丢弃, 实际应用
- 代码: 官方
- 实验环境: MuJoco, D4RL, Atari
NeurIPS 2022
CoRL 2022
ICML 2022
AAAI 2022
- 用Transformer做梦
- Catherine Zeng, Jordan Docter, Alexander Amini, Igor Gilitschenski, Ramin Hasani, Daniela Rus
- 发表于: AAAI 2022 (RLG研讨会)
- 关键词: Dreamer, 世界模型
- 实验环境: Deepmind Lab, VISTA
ICLR 2022
NeurIPS 2021
ICML 2021
贡献
我们的目标是使这个仓库变得更好。如果您有兴趣贡献,请参考这里的贡献指南。
许可证
Awesome Decision Transformer 在 Apache 2.0 许可下发布。