stable-baselines3

项目介绍：Stable Baselines3

Stable Baselines3（SB3）是一组使用 PyTorch 实现的可靠深度强化学习算法。作为 Stable Baselines 的下一个重要版本，Stable Baselines3 提供了一套高效的工具，使研究人员和工业界可以更轻松地复制、优化和创建新的项目思路，同时也为新的概念提供良好的基础。尽管 SB3 使用简单，但仍要求用户具备一定的强化学习知识。

主要特点

Stable Baselines3 提供了众多功能：

支持最新的强化学习方法
全面的文档支持
自定义环境和策略
统一的接口和 Dict 观察空间支持
友好的 Ipython 和 Notebook 支持
集成 Tensorboard
遵循 PEP8 代码风格
自定义回调机制
高代码覆盖率和类型提示支持

计划中的功能

目前，SB3 已实现原计划中的大部分功能，因此没有重大改变计划。未来将主要集中于修复漏洞和维护，同时在附属库中进行更多的活跃开发，如：

SB3 Contrib：包含实验性功能的扩展库
SBX：基于 Jax 的加速版本
RL Baselines3 Zoo：SB3 的训练框架

迁移指南

如果需要从 Stable-Baselines (SB2) 迁移到 Stable-Baselines3，可以在其文档中找到详细的迁移指南。

集成与扩展

Stable-Baselines3 可以与其他库和服务集成，例如用于实验跟踪的 Weights & Biases 和用于模型存储共享的 Hugging Face。

RL Baselines3 Zoo

RL Baselines3 Zoo 是 Stable Baselines3 强化学习代理的一个训练框架，提供训练、评估、调优超参数、绘图及视频录制的脚本。其目标是提供简便的接口进行 RL 代理的训练与使用，同时为每个环境和算法提供调优的超参数。

SB3-Contrib

SB3-Contrib 是一个实验性功能库，提供最新功能如 Recurrent PPO、CrossQ 等。这使主库 SB3 保持稳定同时不断创新。

Stable-Baselines Jax (SBX)

这是一个基于 Jax 的概念验证版本，支持更快的算法实现，如 DroQ 等。

安装

Stable-Baselines3 支持 PyTorch >= 2.3，安装时需要 Python 3.9 及以上版本，可以使用 pip 来安装：

pip install 'stable-baselines3[extra]'

使用示例

以下是一个简单的使用 PPO 算法在 CartPole-v1 环境中进行训练和运行的示例代码：

import gymnasium as gym
from stable_baselines3 import PPO

env = gym.make("CartPole-v1", render_mode="human")
model = PPO("MlpPolicy", env, verbose=1)
model.learn(total_timesteps=10_000)

vec_env = model.get_env()
obs = vec_env.reset()
for i in range(1000):
    action, _states = model.predict(obs, deterministic=True)
    obs, reward, done, info = vec_env.step(action)
    vec_env.render()

env.close()