多模态强化学习精选资源

这是一个**多模态强化学习(MMRL)**研究论文的集合。
该仓库将持续更新以跟踪MMRL的前沿进展。
某些论文可能与强化学习无关,但我们仍然将它们包含在内,因为它们可能对MMRL的研究有用。
欢迎关注和点赞!
简介
多模态强化学习智能体专注于从视频(图像)、语言(文本)或两者同时学习,就像人类一样。我们认为,让智能体直接从图像或文本中学习非常重要,因为这些数据可以轻松从互联网获取。

目录
论文
格式:
- [标题](论文链接) [相关链接]
- 作者。
- 关键词。
- 实验环境。
ICLR 2024
ICLR 2023
ICLR 2022
ICLR 2021
ICLR 2019
- 学习目标条件策略的可操作表示
- Dibya Ghosh, Abhishek Gupta, Sergey Levine.
- 关键词:可操作表示学习
- 实验环境:2D 导航(2D 墙壁、2D 房间、轮式、轮式房间、蚂蚁、推动)
NeurIPS 2023
-
语言并非你所需的全部:将感知与语言模型对齐
- Shaohan Huang, Li Dong, Wenhui Wang, Yaru Hao 等。
- 关键词:多模态感知、世界建模
- 实验环境:IQ50
-
MotionGPT:将人体运动视为外语
- Biao Jiang, Xin Chen, Wen Liu, Jingyi Yu, Gang Yu, Tao Chen
- 关键词:人体运动、文本驱动的运动生成
- 实验环境:HumanML3D,KIT
-
大型语言模型是视觉推理的协调者
- Liangyu Chen, Bo Li, Sheng Shen, Jingkang Yang, Chunyuan Li, Kurt Keutzer, Trevor Darrell, Ziwei Liu
- 关键词:视觉推理、大型语言模型
- 实验环境:A-OKVQA, OK-VQA, e-SNLI-VE, VSR
NeurIPS 2022
NeurIPS 2021
NeurIPS 2018
ICML 2022
ICML 2019
ICML 2017
CVPR 2022
CoRL 2022
其他
ArXiv
-
SpatialVLM: 赋予视觉语言模型空间推理能力
- Boyuan Chen, Zhuo Xu, Sean Kirmani, Brian Ichter, Danny Driess, Pete Florence, Dorsa Sadigh, Leonidas Guibas, Fei Xia
- 关键词: 视觉问答, 3D空间推理
- 实验环境: 空间 视觉问答数据集
-
M2CURL: 通过自监督表示学习实现样本高效的多模态强化学习用于机器人操作
- Fotios Lygerakis, Vedant Dave, Elmar Rueckert
- 关键词: 机器人操作, 自监督表示学习
- 实验环境: Gym
-
时间索引作为深度强化学习中序列操作任务的归纳偏置
- M. Nomaan Qureshi, Ben Eisner, David Held
- 关键词: 策略输出的多模态性, 动作头切换
- 实验环境: MetaWorld
-
基于多模态感知的参数化自动驾驶决策制定
- Yuyang Xia, Shuncheng Liu, Quanlin Yu, Liwei Deng, You Zhang, Han Su, Kai Zheng
- 关键词: 自动驾驶, 强化学习中的图神经网络
- 实验环境: CARLA
-
使用强化学习中的图卷积网络进行对话代理的上下文实时多模态情感识别
- Fathima Abdul Rahman, Guang Lu
- 关键词: 情感识别, 强化学习中的图神经网络
- 实验环境: IEMOCAP
-
强化UI指令定位: 通用UI任务自动化API
- Zhizheng Zhang, Wenxuan Xie, Xiaoyi Zhang, Yan Lu
- 关键词: 大语言模型, 通用UI任务自动化API
- 实验环境: RicoSCA, MoTIF
-
使用大语言模型驾驶: 融合对象级向量模态实现可解释自动驾驶
- Long Chen, Oleg Sinavski, Jan Hünermann, Alice Karnsund, Andrew James Willmott, Danny Birch, Daniel Maund, Jamie Shotton
- 关键词: 自动驾驶中的大语言模型, 对象级多模态大语言模型
- 实验环境: RicoSCA, MoTIF
-