多模态强化学习精选资源

GitHub 星标 GitHub 分支

这是一个**多模态强化学习（MMRL）**研究论文的集合。该仓库将持续更新以跟踪MMRL的前沿进展。某些论文可能与强化学习无关，但我们仍然将它们包含在内，因为它们可能对MMRL的研究有用。

欢迎关注和点赞！

简介

多模态强化学习智能体专注于从视频（图像）、语言（文本）或两者同时学习，就像人类一样。我们认为，让智能体直接从图像或文本中学习非常重要，因为这些数据可以轻松从互联网获取。

飞书20220922-161353

多模态强化学习精选资源
- 简介
- 目录
- 论文
  - ICLR 2024
  - ICLR 2023
  - ICLR 2022
  - ICLR 2021
  - ICLR 2019
  - NeurIPS 2023
  - NeurIPS 2022
  - NeurIPS 2021
  - NeurIPS 2018
  - ICML 2022
  - ICML 2019
  - ICML 2017
  - CVPR 2022
  - CoRL 2022
  - 其他
  - ArXiv
- 贡献
- 许可证

论文

格式：
- [标题](论文链接) [相关链接]
  - 作者。
  - 关键词。
  - 实验环境。

ICLR 2024

DrM：通过最小化休眠比率掌握视觉强化学习
- Guowei Xu, Ruijie Zheng, Yongyuan Liang, Xiyao Wang, Zhecheng Yuan, Tianying Ji, Yu Luo, Xiaoyu Liu, Jiaxin Yuan, Pu Hua, Shuzhen Li, Yanjie Ze, Hal Daumé III, Furong Huang, Huazhe Xu
- 关键词：视觉强化学习；休眠比率
- 实验环境：DeepMind控制套件,Meta-world,Adroit
重新审视深度强化学习中的数据增强
- Jianshu Hu, Yunpeng Jiang, Paul Weng
- 关键词：强化学习、数据增强
- 实验环境：DeepMind控制套件
重新审视视觉强化学习中的可塑性：数据、模块和训练阶段
- Guozheng Ma, Lu Li, Sen Zhang, Zixuan Liu, Zhen Wang, Yixin Chen, Li Shen, Xueqian Wang, Dacheng Tao
- 关键词：可塑性、视觉强化学习、深度强化学习、样本效率
- 实验环境：DeepMind控制套件,Atari
以实体为中心的像素级对象操作强化学习
- Dan Haramati, Tal Daniel, Aviv Tamar
- 关键词：深度强化学习、视觉强化学习、以对象为中心、机器人对象操作、组合泛化
- 实验环境：IsaacGym

ICLR 2023

PaLI：联合缩放的多语言语言-图像模型(<font color="red">杰出论文前5%</font>)
- Xi Chen, Xiao Wang, Soravit Changpinyo, AJ Piergiovanni, Piotr Padlewski, Daniel Salz, Sebastian Goodman, Adam Grycner, Basil Mustafa, Lucas Beyer, Alexander Kolesnikov, Joan Puigcerver, Nan Ding, Keran Rong, Hassan Akbari, Gaurav Mishra, Linting Xue, Ashish Thapliyal, James Bradbury, Weicheng Kuo, Mojtaba Seyedhosseini, Chao Jia, Burcu Karagol Ayan, Carlos Riquelme, Andreas Steiner, Anelia Angelova, Xiaohua Zhai, Neil Houlsby, Radu Soricut
- 关键词：惊人的零样本学习、语言组件和视觉组件
- 实验环境：无
VIMA：基于多模态提示的通用机器人操作
- Yunfan Jiang, Agrim Gupta, Zichen Zhang, Guanzhi Wang, Yongqiang Dou, Yanjun Chen, Li Fei-Fei, Anima Anandkumar, Yuke Zhu, Linxi Fan. NeurIPS 研讨会 2022
- 关键词：多模态提示、基于 Transformer 的通用智能体模型、大规模基准测试
- 实验环境：VIMA-Bench, VIMA-Data
心灵之眼：基于模拟的语言模型推理
- Ruibo Liu, Jason Wei, Shixiang Shane Gu, Te-Yen Wu, Soroush Vosoughi, Claire Cui, Denny Zhou, Andrew M. Dai
- 关键词：语言到物理世界、推理能力
- 实验环境：MuJoCo

ICLR 2022

CLIP 能在多大程度上改善视觉语言任务？
- Sheng Shen, Liunian Harold Li, Hao Tan 等。 ICLR 2022
- 关键词：视觉语言、CLIP
- 实验环境：无

ICLR 2021

将语言与实体和动态关联以实现强化学习中的泛化
- Austin W. Hanjie, Victor Zhong, Karthik Narasimhan. ICML 2021
- 关键词：多模态注意力
- 实验环境：Messenger
使用离散世界模型掌控 Atari 游戏
- Danijar Hafner, Timothy Lillicrap, Mohammad Norouzi 等。
- 关键词：世界模型
- 实验环境：Atari
将表示学习与强化学习解耦
- Adam Stooke, Kimin Lee, Pieter Abbeel 等。
- 关键词：表示学习、无监督学习
- 实验环境：DeepMind Control, Atari, DMLab

ICLR 2019

学习目标条件策略的可操作表示
- Dibya Ghosh, Abhishek Gupta, Sergey Levine.
- 关键词：可操作表示学习
- 实验环境：2D 导航（2D 墙壁、2D 房间、轮式、轮式房间、蚂蚁、推动）

NeurIPS 2023

语言并非你所需的全部：将感知与语言模型对齐
- Shaohan Huang, Li Dong, Wenhui Wang, Yaru Hao 等。
- 关键词：多模态感知、世界建模
- 实验环境：IQ50
MotionGPT：将人体运动视为外语
- Biao Jiang, Xin Chen, Wen Liu, Jingyi Yu, Gang Yu, Tao Chen
- 关键词：人体运动、文本驱动的运动生成
- 实验环境：HumanML3D,KIT
大型语言模型是视觉推理的协调者
- Liangyu Chen, Bo Li, Sheng Shen, Jingkang Yang, Chunyuan Li, Kurt Keutzer, Trevor Darrell, Ziwei Liu
- 关键词：视觉推理、大型语言模型
- 实验环境：A-OKVQA, OK-VQA, e-SNLI-VE, VSR

NeurIPS 2022

MineDojo：利用互联网规模知识构建开放式实体智能体
- Linxi Fan, Guanzhi Wang, Yunfan Jiang 等。
- 关键词：多模态数据集、MineClip
- 实验环境：Minecraft
视频预训练（VPT）：通过观看未标记的在线视频学习行动
- Bowen Baker, Ilge Akkaya, Peter Zhokhov 等。
- 关键词：逆动力学模型
- 实验环境：minerl

NeurIPS 2021

SOAT：用于视觉语言导航的场景和物体感知 Transformer
- Abhinav Moudgil, Arjun Majumdar, Harsh Agrawal 等。
- 关键词：视觉语言导航
- 实验环境：Room-to-Room, Room-Across-Room
预训练表示以实现数据高效的强化学习
- Max Schwarzer, Nitarshan Rajkumar, Michael Noukhovitch 等。
- 关键词：潜在动力学建模、无监督强化学习
- 实验环境：Atari

NeurIPS 2018

循环世界模型促进策略进化
- David Ha, Jürgen Schmidhuber
- 关键词：世界模型、生成式循环神经网络、变分自编码器
- 实验环境：VizDoom、CarRacing

ICML 2022

作为零样本规划器的语言模型：为具身智能体提取可操作知识
- Wenlong Huang, Pieter Abbeel, Deepak Pathak等
- 关键词：大规模语言模型、具身智能体
- 实验环境：VirtualHome
基于视频的无动作预训练强化学习
- Younggyo Seo, Kimin Lee, Stephen L James等
- 关键词：无动作预训练、视频
- 实验环境：Meta-world、DeepMind Control Suite
强化学习中基于语言模型的历史压缩
- Fabian Paischer, Thomas Adler, Vihang Patil等
- 关键词：预训练语言转换器
- 实验环境：Minigrid、Procgen

ICML 2019

从像素学习潜在动力学以进行规划
- Danijar Hafner, Timothy Lillicrap, Ian Fischer等
- 关键词：潜在动力学模型、像素观察
- 实验环境：DeepMind Control Suite

ICML 2017

基于多任务深度强化学习的零样本任务泛化
- Junhyuk Oh, Satinder Singh, Honglak Lee, Pushmeet Kohli
- 关键词：未见指令、顺序指令
- 实验环境：Minecraft

CVPR 2022

多模态视频字幕的端到端生成式预训练
- Paul Hongsuck Seo, Arsha Nagrani, Anurag Arnab, Cordelia Schmid
- 关键词：多模态视频字幕、使用未来话语的预训练、多模态视频生成式预训练
- 实验环境：HowTo100M
图像作为外语：面向所有视觉和视觉语言任务的BEiT预训练
- Wenhui Wang, Hangbo Bao, Li Dong, Johan Bjorck, Zhiliang Peng, Qiang Liu, Kriti Aggarwal, Owais Khan Mohammed, Saksham Singhal, Subhojit Som, Furu Wei
- 关键词：骨干架构、预训练任务、模型规模扩大
- 实验环境：ADE20K、COCO、NLVR2、Flickr30K
全局思考，局部行动：视觉语言导航的双尺度图转换器
- Shizhe Chen, Pierre-Louis Guhur, Makarand Tapaswi, Cordelia Schmid, Ivan Laptev
- 关键词：双尺度图转换器、可供性检测
- 实验环境：无
用于运动控制的掩蔽视觉预训练
- Tete Xiao, Ilija Radosavovic, Trevor Darrell等 ArXiv 2022
- 关键词：自监督学习、运动控制
- 实验环境：Isaac Gym

CoRL 2022

LM-Nav：使用语言、视觉和动作的大型预训练模型进行机器人导航
- Dhruv Shah, Blazej Osinski, Brian Ichter, Sergey Levine
- 关键词：机器人导航、目标条件、未标注大型数据集、CLIP、ViNG、GPT-3
- 实验环境：无
[使用掩蔽视觉预训练进行真实世界机器人学习](https://arxiv.org/abs/2210.03109）
- Ilija Radosavovic, Tete Xiao, Stephen James, Pieter Abbeel, Jitendra Malik, Trevor Darrell
- 关键词：真实世界机器人任务
- 实验环境：无
R3M：用于机器人操作的通用视觉表示
- Suraj Nair, Aravind Rajeswaran, Vikash Kumar等
- 关键词：Ego4D人类视频数据集、预训练视觉表示
- 实验环境：MetaWorld、Franka Kitchen, Adroit

其他

非结构化数据上的语言条件模仿学习 RSS 2021
- Corey Lynch, Pierre Sermanet
- 关键词：开放世界环境
- 实验环境：无
从"野外"人类视频中学习可泛化的机器人奖励函数 RSS 2021
- Annie S. Chen, Suraj Nair, Chelsea Finn
- 关键词：奖励函数、"野外"人类视频
- 实验环境：无
使用潜在空间模型的离线图像强化学习 L4DC 2021
- Rafael Rafailov, Tianhe Yu, Aravind Rajeswaran 等
- 关键词: 潜在空间模型
- 实验环境: DeepMind Control, Adroit Pen, Sawyer Door Open, Robel D'Claw Screw
交叉注意力是否优于自注意力用于多模态情感识别? ICASSP 2022
- Vandana Rajan, Alessio Brutti, Andrea Cavallaro
- 关键词: 多模态情感识别, 交叉注意力
- 实验环境: 无

ArXiv

SpatialVLM: 赋予视觉语言模型空间推理能力
- Boyuan Chen, Zhuo Xu, Sean Kirmani, Brian Ichter, Danny Driess, Pete Florence, Dorsa Sadigh, Leonidas Guibas, Fei Xia
- 关键词: 视觉问答, 3D空间推理
- 实验环境: 空间视觉问答数据集
M2CURL: 通过自监督表示学习实现样本高效的多模态强化学习用于机器人操作
- Fotios Lygerakis, Vedant Dave, Elmar Rueckert
- 关键词: 机器人操作, 自监督表示学习
- 实验环境: Gym
时间索引作为深度强化学习中序列操作任务的归纳偏置
- M. Nomaan Qureshi, Ben Eisner, David Held
- 关键词: 策略输出的多模态性, 动作头切换
- 实验环境: MetaWorld
基于多模态感知的参数化自动驾驶决策制定
- Yuyang Xia, Shuncheng Liu, Quanlin Yu, Liwei Deng, You Zhang, Han Su, Kai Zheng
- 关键词: 自动驾驶, 强化学习中的图神经网络
- 实验环境: CARLA
使用强化学习中的图卷积网络进行对话代理的上下文实时多模态情感识别
- Fathima Abdul Rahman, Guang Lu
- 关键词: 情感识别, 强化学习中的图神经网络
- 实验环境: IEMOCAP
强化UI指令定位: 通用UI任务自动化API
- Zhizheng Zhang, Wenxuan Xie, Xiaoyi Zhang, Yan Lu
- 关键词: 大语言模型, 通用UI任务自动化API
- 实验环境: RicoSCA, MoTIF
使用大语言模型驾驶: 融合对象级向量模态实现可解释自动驾驶
- Long Chen, Oleg Sinavski, Jan Hünermann, Alice Karnsund, Andrew James Willmott, Danny Birch, Daniel Maund, Jamie Shotton
- 关键词: 自动驾驶中的大语言模型, 对象级多模态大语言模型
- 实验环境: RicoSCA, MoTIF
通过强化学习和多模态分类探索实现非抓取平面操作
- Juan Del Aguila Ferrandis, João Moura, Sethu Vijayakumar
- 关键词: 多模态探索方法
- 实验环境: KUKA iiwa机器人臂
基于强化学习的端到端流式视频时序动作分割
- Wujun Wen, Jinrong Zhang, Shenglan Liu, Yunheng Li, Qifeng Li, Lin Feng
- 关键词: 时序动作分割, 视频分析中的强化学习
- 实验环境: EGTEA
尽我所能,而非所得:多模态知识图谱上的拓扑感知多跳推理
- Shangfei Zheng, Hongzhi Yin, Tong Chen, Quoc Viet Hung Nguyen, Wei Chen, Lei Zhao
- 关键词: 多跳推理, 多模态知识图谱, 归纳式设置, 自适应强化学习
- 实验环境: 无
用于人机协作的多模态强化学习机器人
- Afagh Mehri Shervedani, Siyu Li, Natawut Monaikul, Bahareh Abbasi, Barbara Di Eugenio, Milos Zefran
- 关键词: 稳健和深思熟虑的决策, 端到端训练, 重要性增强, 相似性, 改进多模态强化学习领域的逆强化学习训练过程
- 实验环境: 无
看、规划、预测: 语言引导的视频预测认知规划
- Maria Attarian, Advaya Gupta, Ziyi Zhou, Wei Yu, Igor Gilitschenski, Animesh Garg
- 关键词: 认知规划, 语言引导的视频预测
- 实验环境: 无
用于现实世界规划的开放词汇可查询场景表示
- Boyuan Chen, Fei Xia, Brian Ichter, Kanishka Rao, Keerthana Gopalakrishnan, Michael S. Ryoo, Austin Stone, Daniel Kappler
- 关键词: 目标检测, 现实世界, 机器人任务
- 实验环境: Say Can
如我所能而非如我所言：将语言落地于机器人能力
- Michael Ahn, Anthony Brohan, Noah Brown, Yevgen Chebotar, Omar Cortes, Byron David, Chelsea Finn, Chuyuan Fu, Keerthana Gopalakrishnan, Karol Hausman, Alex Herzog, Daniel Ho, Jasmine Hsu, Julian Ibarz, Brian Ichter, Alex Irpan, Eric Jang, Rosario Jauregui Ruano, Kyle Jeffrey, Sally Jesmonth, Nikhil J Joshi, Ryan Julian, Dmitry Kalashnikov, Yuheng Kuang, Kuang-Huei Lee, Sergey Levine, Yao Lu, Linda Luu, Carolina Parada, Peter Pastor, Jornell Quiambao, Kanishka Rao, Jarek Rettinghouse, Diego Reyes, Pierre Sermanet, Nicolas Sievers, Clayton Tan, Alexander Toshev, Vincent Vanhoucke, Fei Xia, Ted Xiao, Peng Xu, Sichun Xu, Mengyuan Yan, Andy Zeng
- 关键词：真实世界，自然语言
- 实验环境：Say Can