gymnax

<h1 align="center"> <a href="https://yellow-cdn.veclightyear.com/835a84d5/2a34392f-ae3f-48b2-bd27-5970dbd15ff8.png"> <img src="https://yellow-cdn.veclightyear.com/835a84d5/2a34392f-ae3f-48b2-bd27-5970dbd15ff8.png?raw=true" width="215" /></a><br> <b>JAX中的强化学习环境 🌍</b><br> </h1> <p align="center"> <a href="https://pypi.python.org/pypi/gymnax"> <img src="https://yellow-cdn.veclightyear.com/835a84d5/955ebf74-3ad4-40af-9a6f-aaf547161ffc.svg?style=flat-square" /></a> <a href= "https://badge.fury.io/py/gymnax"> <img src="https://yellow-cdn.veclightyear.com/835a84d5/73158e47-46e2-4ddd-902f-44d5162942c9.svg" /></a> <a href= "https://github.com/RobertTLange/gymnax/blob/master/LICENSE.md"> <img src="https://yellow-cdn.veclightyear.com/835a84d5/53d70f62-418b-4b9b-bd7b-7357122defaa.svg" /></a> <a href= "https://codecov.io/gh/RobertTLange/gymnax"> <img src="https://yellow-cdn.veclightyear.com/835a84d5/c27a074d-3eb9-47e2-aff8-ce050c30f8af.svg?token=OKKPDRIQJR" /></a> <a href= "https://github.com/psf/black"> <img src="https://yellow-cdn.veclightyear.com/835a84d5/2bf6dbd6-e45d-46c6-8332-3a3ae2996bf6.svg" /></a> </p>

你是否厌倦了基于CPU的缓慢RL环境进程？你是否想利用大规模矢量化来进行高吞吐量的RL实验？gymnax将jit和vmap/pmap的强大功能引入经典的gym API。它支持多种不同的环境，包括经典控制、bsuite、MinAtar以及一系列经典/元强化学习任务。gymnax允许显式控制环境设置（随机种子或超参数），从而实现不同配置的加速和并行化rollouts（例如用于元强化学习）。通过在加速器上同时执行环境和策略，它促进了Podracer论文(Hessel et al., 2021)中提出的Anakin子架构和高度分布式的进化优化（例如使用evosax）。我们在gymnax-blines中提供了PPO和ES的训练与检查点。从这里开始 👉 。

基本`gymnax` API使用 🍲

import jax
import gymnax

rng = jax.random.PRNGKey(0)
rng, key_reset, key_act, key_step = jax.random.split(rng, 4)

# 实例化环境及其设置
env, env_params = gymnax.make("Pendulum-v1")

# 重置环境
obs, state = env.reset(key_reset, env_params)

# 采样随机动作
action = env.action_space(env_params).sample(key_act)

# 执行步骤转换
n_obs, n_state, reward, done, _ = env.step(key_step, state, action, env_params)

已实现的加速环境 🏎️

环境名称	参考文献	源代码	🤖 检查点（回报）	每百万步秒数 🦶 <br /> A100 (2k 🌎)
`Acrobot-v1`	Brockman等人 (2016)	点击	PPO, ES (回报: -80)	0.07
`Pendulum-v1`	Brockman等人 (2016)	点击	PPO, ES (回报: -130)	0.07
`CartPole-v1`	Brockman等人 (2016)	点击	PPO, ES (回报: 500)	0.05
`MountainCar-v0`	Brockman等人 (2016)	点击	PPO, ES (回报: -118)	0.07
`MountainCarContinuous-v0`	Brockman等人 (2016)	点击	PPO, ES (回报: 92)	0.09

`Asterix-MinAtar`	Young和Tian (2019)	点击	PPO (回报: 15)	0.92
`Breakout-MinAtar`	Young和Tian (2019)	点击	PPO (回报: 28)	0.19
`Freeway-MinAtar`	Young和Tian (2019)	点击	PPO (回报: 58)	0.87
`SpaceInvaders-MinAtar`	Young和Tian (2019)	点击	PPO (回报: 131)	0.33

`Catch-bsuite`	Osband等人 (2019)	点击	PPO, ES (回报: 1)	0.15
`DeepSea-bsuite`	Osband等人 (2019)	点击	PPO, ES (回报: 0)	0.22
`MemoryChain-bsuite`	Osband等人 (2019)	点击	PPO, ES (回报: 0.1)	0.13
`UmbrellaChain-bsuite`	Osband等人 (2019)	点击	PPO, ES (回报: 1)	0.08
`DiscountingChain-bsuite`	Osband等人 (2019)	点击	PPO, ES (回报: 1.1)	0.06
`MNISTBandit-bsuite`	Osband等人 (2019)	点击	-	-
`SimpleBandit-bsuite`	Osband等人 (2019)	点击	-	-

`FourRooms-misc`	Sutton等人 (1999)	点击	PPO, ES (回报: 1)	0.07
`MetaMaze-misc`	Micconi等人 (2020)	点击	ES (回报: 32)	0.09
`PointRobot-misc`	Dorfman等人 (2021)	点击	ES (R: 10)	0.08
`BernoulliBandit-misc`	Wang等人 (2017)	点击	ES (R: 90)	0.08
`GaussianBandit-misc`	Lange & Sprekeler (2022)	点击	ES (R: 0)	0.07
`Reacher-misc`	Lenton等人 (2021)	点击
`Swimmer-misc`	Lenton等人 (2021)	点击
`Pong-misc`	Kirsch (2018)	点击

所有显示的速度均为在NVIDIA A100 GPU上使用jit编译的情节展开和2000个环境工作线程进行100万步转换(随机策略)的估计值。有关不同加速器(CPU、RTX 2080Ti)和MLP策略的更详细速度比较,请参阅gymnax-blines文档。

安装 ⏳

可以直接从PyPI安装最新的gymnax版本:

pip install gymnax

如果你想获取最新的提交,请直接从仓库安装:

pip install git+https://github.com/RobertTLange/gymnax.git@main

要在加速器上使用JAX,可以在JAX文档中找到更多详细信息。

示例 📖

📓 环境API - 开始使用基本的gymnax API。
📓 分布式Anakin代理 - 在SpaceInvaders-MinAtar上训练Anakin (Hessel et al., 2021)代理。
📓 使用gymnax的ES - 元进化一个LSTM控制器,用于控制不同长度的2连杆摆。
📓 多臂老虎机A2C元强化学习 - 元学习一个A2C LSTM,学习在多臂老虎机任务中进行探索/利用。
📓 训练好的基线 - 查看gymnax-blines中训练好的基线代理(PPO/ES)。

主要卖点 💵

环境向量化和加速: 轻松组合JAX原语(如jit、vmap、pmap):

# Jit加速的步骤转换
jit_step = jax.jit(env.step)

# 映射(vmap/pmap)随机键以进行批量展开
reset_rng = jax.vmap(env.reset, in_axes=(0, None))
step_rng = jax.vmap(env.step, in_axes=(0, 0, 0, None))

# 映射(vmap/pmap)环境参数(例如用于元学习)
reset_params = jax.vmap(env.reset, in_axes=(None, 0))
step_params = jax.vmap(env.step, in_axes=(None, 0, 0, 0))

有关与标准向量化NumPy环境的速度比较,请查看gymnax-blines。

扫描整个情节展开: 你还可以使用lax.scan扫描整个reset、step情节循环以实现快速编译:

def rollout(rng_input, policy_params, env_params, steps_in_episode):
    """使用lax.scan展开一个jitted gymnax情节。"""
    # 重置环境
    rng_reset, rng_episode = jax.random.split(rng_input)
    obs, state = env.reset(rng_reset, env_params)

    def policy_step(state_input, tmp):
        """与lax.scan兼容的jax环境中的步骤转换。"""
        obs, state, policy_params, rng = state_input
        rng, rng_step, rng_net = jax.random.split(rng, 3)
        action = model.apply(policy_params, obs)
        next_obs, next_state, reward, done, _ = env.step(
            rng_step, state, action, env_params
        )
        carry = [next_obs, next_state, policy_params, rng]
        return carry, [obs, action, reward, next_obs, done]

    # 扫描情节步骤循环
    _, scan_out = jax.lax.scan(
        policy_step,
        [obs, state, policy_params, rng_episode],
        (),
        steps_in_episode
    )
    # 返回代理在情节中累积的奖励的掩码和
    obs, action, reward, next_obs, done = scan_out
    return obs, action, reward, next_obs, done

内置可视化工具: 你还可以使用Visualizer工具顺利生成GIF动画,该工具涵盖了所有classic_control、MinAtar和大多数misc环境:

from gymnax.visualize import Visualizer

state_seq, reward_seq = [], []
rng, rng_reset = jax.random.split(rng)
obs, env_state = env.reset(rng_reset, env_params)
while True:
    state_seq.append(env_state)
    rng, rng_act, rng_step = jax.random.split(rng, 3)
    action = env.action_space(env_params).sample(rng_act)
    next_obs, next_env_state, reward, done, info = env.step(
        rng_step, env_state, action, env_params
    )
    reward_seq.append(reward)
    if done:
        break
    else:
      obs = next_obs
      env_state = next_env_state

cum_rewards = jnp.cumsum(jnp.array(reward_seq))
vis = Visualizer(env, env_params, state_seq, cum_rewards)
vis.animate(f"docs/anim.gif")

训练流程和预训练代理: 查看gymnax-blines获取训练好的代理、专家展开可视化和PPO/ES流程。这些代理经过最小程度的调整,但可以帮助你快速上手。

简单的批量代理评估: 正在进行中。

from gymnax.experimental import RolloutWrapper

# 为摆环境定义展开管理器
manager = RolloutWrapper(model.apply, env_name="Pendulum-v1")

# 策略的简单单情节展开
obs, action, reward, next_obs, done, cum_ret = manager.single_rollout(rng, policy_params)

# 同一网络的多次展开(不同的rng,例如评估)
rng_batch = jax.random.split(rng, 10)
obs, action, reward, next_obs, done, cum_ret = manager.batch_rollout(
    rng_batch, policy_params
)

# 不同网络和rng的多次展开(例如用于ES)
batch_params = jax.tree_map(  # 堆叠参数或使用不同的参数
    lambda x: jnp.tile(x, (5, 1)).reshape(5, *x.shape), policy_params
)
obs, action, reward, next_obs, done, cum_ret = manager.population_rollout(
    rng_batch, batch_params
)

资源和其他优秀工具 📝

💻 Brax: Google Brain基于JAX的刚体物理库,提供JAX风格的MuJoCo替代品。
💻 envpool: 向量化并行环境执行引擎。
💻 Jumanji: 一套多样化且具有挑战性的JAX强化学习环境。
💻 Pgx: 基于JAX的经典棋盘游戏环境。

致谢和引用`gymnax` ✏️

如果你在研究中使用gymnax,请按以下方式引用:

@software{gymnax2022github,
  author = {Robert Tjarko Lange},
  title = {{gymnax}: A {JAX}-based Reinforcement Learning Environment Library},
  url = {http://github.com/RobertTLange/gymnax},
  version = {0.0.4},
  year = {2022},
}

我们感谢Google TRC和德国研究基金会(DFG,德国研究基金会)在德国卓越战略 - EXC 2002/1 "科学智能" - 项目编号390523135下的财政支持。