MDP python 测试 overcooked-ai 代码覆盖率

Overcooked-AI 🧑‍🍳🤖

<p align="center"> <img src="https://yellow-cdn.veclightyear.com/0a4dffa0/3ba6ddd6-5705-4033-b2e3-e0c2a082702a.gif" width="100%"> <i>5种可用布局。新布局可以轻松硬编码或程序化生成。</i> </p>

简介 🥘

Overcooked-AI是一个基于广受欢迎的视频游戏Overcooked的完全合作式人机任务性能基准环境。

游戏的目标是尽快提供汤品。每份汤需要将最多3种配料放入锅中，等待汤煮好，然后由一个智能体取走汤并送出。智能体应该即时分工并有效协调以获得高回报。

你可以在这里尝试游戏（与一些预先训练的深度强化学习智能体一起玩）。要使用此界面与你自己训练的智能体一起玩，或收集更多人机或人人数据，你可以使用这里的代码。你可以在这里找到一些已收集的人人和人机游戏数据。

与环境兼容的深度强化学习实现作为子模块包含在src/human_aware_rl下的仓库中。

旧版human_aware_rl正在被弃用，应该只用于重现2019年论文中的结果：On the Utility of Learning about Humans for Human-AI Coordination（另见我们的博客文章）。

对于环境的简单使用，值得考虑使用这个环境包装器。

使用Overcooked-AI的研究论文 📑

[论文列表略]

安装 ☑️

从PyPI安装 🗜

你可以使用pip安装预编译的wheel文件。

pip install overcooked-ai

注意，PyPI发布版本稳定但不频繁。要获取最新的开发功能，请使用pip install -e .从源代码构建。

从源代码构建 🔧

使用Python 3.7设置conda环境很有用（virtualenv也可以）：

conda create -n overcooked_ai python=3.7
conda activate overcooked_ai

克隆仓库

git clone https://github.com/HumanCompatibleAI/overcooked_ai.git

最后，使用python setup-tools进行本地安装

如果你只想使用环境：

pip install -e .

如果你还需要深度强化学习实现（你可能需要在终端中输入pip install -e '.[harl]'）：

pip install -e .[harl]

验证安装 📈

从源代码构建时，你可以通过运行Overcooked单元测试套件来验证安装。以下所有命令都应该在overcooked_ai项目根目录下运行：

python testing/overcooked_test.py

要检查human_aware_rl是否正确安装，你可以在src/human_aware_rl目录下运行以下命令：

$ ./run_tests.sh

⚠️在运行脚本之前，请确保将当前工作目录更改为human_aware_rl目录，因为测试脚本使用当前工作目录动态生成保存临时训练运行/检查点的路径。如果不在正确的目录中运行，测试脚本将失败。

这将运行属于human_aware_rl模块的所有测试。你可以查看子模块中的README以获取运行特定目标测试的说明。这可以从任何目录启动。

如果你打算广泛使用规划代码，你应该运行完整的测试套件，以验证所有Overcooked附属工具（这可能需要5-10分钟）：

python -m unittest discover -s testing/ -p "*_test.py"

代码结构概览 🗺

overcooked_ai_py包含： mdp/:

overcooked_mdp.py：主要的Overcooked游戏逻辑
overcooked_env.py：基于Overcooked mdp构建的环境类
layout_generator.py：以编程方式生成随机布局的函数

agents/:

agent.py：代理类的位置
benchmarking.py：代理（包括训练好的和规划器）的样本轨迹和加载各种模型

planning/:

planners.py：近乎最优的代理规划逻辑
search.py：A*搜索和最短路径逻辑

human_aware_rl包含：

ppo/:

ppo_rllib.py：训练PPO代理的主要模块。包括与rllib兼容的OvercookedEnv封装器、将rllib的Policy类转换为Overcooked的Agent的工具，以及实用函数和回调
ppo_rllib_client.py：配置和启动代理训练的驱动代码。更多使用细节见下文
ppo_rllib_from_params_client.py：在具有可变MDP的Overcooked中使用PPO训练一个代理
ppo_rllib_test.py：用于本地健全性检查的可重复性测试
run_experiments.sh：在5个经典布局上训练代理的脚本
trained_example/：用于测试目的的预训练模型

rllib/:

rllib.py：使用Overcooked API的rllib代理和训练工具
utils.py：上述内容的工具函数
tests.py：上述内容的初步测试

imitation/:

behavior_cloning_tf2.py：用于训练、保存和加载BC模型的模块
behavior_cloning_tf2_test.py：包含基本的可重复性测试以及BC模块各组件的单元测试

human/:

process_data.py：处理特定格式的人类数据以供DRL算法使用的脚本
data_processing_utils.py：上述内容的工具函数

utils.py：仓库的工具函数

overcooked_demo包含：

server/:

app.py：Flask应用
game.py：游戏的主要逻辑。状态转换由嵌入游戏环境中的overcooked.Gridworld对象处理
move_agents.py：简化将检查点复制到agents目录的脚本。使用说明可以在文件内部找到或通过运行python move_agents.py -h获得

up.sh：启动托管游戏的Docker服务器的Shell脚本

Python可视化

查看这个Google Colab以获取在Python中可视化轨迹的一些示例代码。

我们已经incorporatd了一个notebook，指导用户训练、加载和评估代理的过程。理想情况下，我们希望用户能够在Google Colab中执行该notebook；然而，由于Colab的默认内核是Python 3.10，而我们的仓库针对Python 3.7进行了优化，目前一些函数与Colab不兼容。为了提供无缝体验，我们已经预先执行了notebook中的所有单元格，让你可以查看在适当设置后在本地运行时的预期输出。

Overcooked_demo还可以在浏览器中启动一个交互式游戏进行可视化。详细信息可以在其README中找到。