PantheonRL

PantheonRL 是一个用于训练和测试多智能体强化学习环境的软件包。PantheonRL 的目标是提供一个模块化且可扩展的框架，用于训练智能体策略、微调智能体策略、临时配对智能体等。PantheonRL 还提供了一个网页用户界面，适用于轻量级实验和原型设计。

PantheonRL 建立在 StableBaselines3 (SB3) 之上，允许直接访问 SB3 的许多标准强化学习训练算法，如 PPO。PantheonRL 目前遵循分散式训练范式——每个智能体都配备了自己的重放缓冲区和更新算法。智能体对象设计得易于操作。它们可以被保存、加载并插入到不同的训练程序中，如自我对弈、临时/交叉对弈、循环训练或微调。

该软件包将在 AAAI-22 演示程序中展示。

演示论文

演示视频

"PantheonRL: 用于动态训练交互的 MARL 库"
Bidipta Sarkar*, Aditi Talati*, Andy Shih*, Dorsa Sadigh
发表于第 36 届 AAAI 人工智能会议论文集（演示赛道），2022 年

@inproceedings{sarkar2021pantheonRL,
  title={PantheonRL: A MARL Library for Dynamic Training Interactions},
  author={Sarkar, Bidipta and Talati, Aditi and Shih, Andy and Sadigh Dorsa},
  booktitle = {Proceedings of the 36th AAAI Conference on Artificial Intelligence (Demo Track)},
  year={2022}
}

安装

# 可选：创建 conda 环境
conda create -n PantheonRL python=3.7
conda activate PantheonRL

# 降级 setuptools 以适配 gym=0.21
pip install setuptools==65.5.0 "wheel<0.40.0"

# 克隆并安装 PantheonRL
git clone https://github.com/Stanford-ILIAD/PantheonRL.git
cd PantheonRL
pip install -e .

Overcooked 安装

# 可选：安装 Overcooked 环境
git submodule update --init --recursive
pip install -e overcookedgym/human_aware_rl/overcooked_ai

PettingZoo 安装

# 可选：安装 PettingZoo 环境
pip install pettingzoo

# 安装一组 pettingzoo 环境
pip install "pettingzoo[classic]"

命令行调用

示例

python3 trainer.py LiarsDice-v0 PPO PPO --seed 10 --preset 1

# 需要先安装 Overcooked（参见上述说明）
python3 trainer.py OvercookedMultiEnv-v0 PPO PPO --env-config '{"layout_name":"simple"}' --seed 10 --preset 1

关于循环训练后进行伙伴适应的示例，请查看这些说明。

更多示例，请查看 examples/ 目录。

网页用户界面

首次在新位置运行网页界面时，必须初始化数据库。之后，不应再次调用 init-db 命令，因为这将清除所有用户账户数据。

设置环境变量并（重新）初始化数据库

export FLASK_APP=website
export FLASK_ENV=development
flask init-db

启动网页用户界面。确保端口 5000 和 5001（用于 Tensorboard）未被占用。

flask run --host=0.0.0.0 --port=5000

<img src="https://yellow-cdn.veclightyear.com/835a84d5/c46c2c85-5abf-471d-883e-2189eb3d2114.png" width="90%"> 智能体选择界面。用户可以自定义自我智能体和伙伴智能体。 <img src="https://yellow-cdn.veclightyear.com/835a84d5/2015a48f-5885-4771-9826-38d18da7b20e.png" width="90%"> 训练界面。用户可以查看基本信息，或打开 Tensorboard 标签页进行完整监控。

功能

通用功能	PantheonRL
文档	:heavy_check_mark:
网页用户界面	:heavy_check_mark:
基于 SB3 构建	:heavy_check_mark:
支持 PettingZoo 环境	:heavy_check_mark:

环境功能	PantheonRL
帧堆叠（循环）	:heavy_check_mark:
同时行动多智能体环境	:heavy_check_mark:
回合制多智能体环境	:heavy_check_mark:
双人环境	:heavy_check_mark:
N 人环境	:heavy_check_mark:
自定义环境	:heavy_check_mark:

训练功能	PantheonRL
自我对弈	:heavy_check_mark:
临时/交叉对弈	:heavy_check_mark:
循环训练	:heavy_check_mark:
微调/适应新伙伴	:heavy_check_mark:
自定义策略	:heavy_check_mark:

当前环境

名称	环境类型	奖励类型	玩家数	可视化
石头剪刀布	同时行动环境	竞争性	2	:x:
说谎者骰子	回合制环境	竞争性	2	:x:
积木世界 [1]	回合制环境	合作性	2	:heavy_check_mark:
煮过头 [2]	同时行动环境	合作性	2	:heavy_check_mark:
PettingZoo [3]	混合	混合	N	:heavy_check_mark: