VoxPoser

VoxPoser：使用语言模型进行机器人操作的可组合3D价值地图

[项目主页] [论文] [视频]

Wenlong Huang1, Chen Wang1, Ruohan Zhang1, Yunzhu Li1,2, Jiajun Wu1, Li Fei-Fei1

1斯坦福大学, 2伊利诺伊大学厄巴纳-香槟分校

这是VoxPoser的官方演示代码，VoxPoser是一种使用大型语言模型和视觉语言模型来零样本合成操作任务轨迹的方法。

在本仓库中，我们提供了VoxPoser在RLBench中的实现，因为其任务多样性最接近我们的真实世界设置。请注意，VoxPoser是一种零样本方法，不需要任何训练数据。因此，本仓库的主要目的是提供演示实现，而不是评估基准。

如果您在研究中发现这项工作有用，请使用以下BibTeX进行引用：

@article{huang2023voxposer,
      title={VoxPoser: Composable 3D Value Maps for Robotic Manipulation with Language Models},
      author={Huang, Wenlong and Wang, Chen and Zhang, Ruohan and Li, Yunzhu and Wu, Jiajun and Fei-Fei, Li},
      journal={arXiv preprint arXiv:2307.05973},
      year={2023}
    }

设置说明

请注意，此代码库最好在有显示器的情况下运行。对于无头模式运行，请参考RLBench中的说明。

创建conda环境：

conda create -n voxposer-env python=3.9
conda activate voxposer-env

参见说明安装PyRep和RLBench（注意：在创建的conda环境中安装这些）。
安装其他依赖项：

pip install -r requirements.txt

获取OpenAI API密钥，并将其放在演示笔记本的第一个单元格中。

运行演示

演示代码在src/playground.ipynb中。说明可以在笔记本中找到。

代码结构

VoxPoser的核心：

playground.ipynb：VoxPoser的操作界面。
LMP.py：语言模型程序（LMPs）的实现，递归生成代码以分解指令并为每个子任务组合价值地图。
interfaces.py：为语言模型（即LMPs）提供必要的API，以在体素空间中操作并调用运动规划器。
planners.py：实现贪婪规划器，为给定实体/可移动物体规划轨迹（表示为一系列路径点）。
controllers.py：给定实体/可移动物体的路径点，控制器应用（一系列）机器人动作以达到路径点。
dynamics_models.py：实体/可移动物体为物体或物体部分时的环境动力学模型。这在controllers.py中用于执行MPC。
prompts/rlbench：VoxPoser中不同语言模型程序（LMPs）使用的提示。

环境和工具：

envs：
- rlbench_env.py：RLBench环境的包装器，为VoxPoser暴露有用的功能。
- task_object_names.json：暴露给VoxPoser的对象名称与每个单独任务的相应场景对象名称的映射。
configs/rlbench_config.yaml：RLBench环境中所有涉及模块的配置文件。
arguments.py：配置文件的参数解析器。
LLM_cache.py：语言模型输出的缓存，写入磁盘以节省成本和时间。
utils.py：实用函数。
visualizers.py：基于Plotly的价值地图和规划轨迹可视化工具。