常见的无模型强化学习算法

基于PyTorch和TensorFlow 2.0实现的最先进的无模型强化学习算法，可应用于OpenAI Gym环境和自行实现的Reacher环境。

算法包括:

演员-评论家(AC/A2C);
软演员-评论家(SAC);
深度确定性策略梯度(DDPG);
双延迟DDPG(TD3);
近端策略优化(PPO);
QT-Opt(包括交叉熵(CE)方法);
PointNet;
Transporter;
循环策略梯度;
软决策树;
概率专家混合;
QMIX
等等。

请注意，这个仓库更多是我在研究和学习期间实现和测试的算法的个人收集，而不是一个正式的开源库/包供使用。然而，我认为分享它可能对他人有所帮助，我也期待关于我的实现的有益讨论。但我并没有花太多时间来清理或结构化代码。你可能会注意到每种算法可能有几个版本的实现，我有意在这里展示所有这些版本供你参考和比较。此外，这个仓库只包含PyTorch实现。

对于RL算法的官方库，我提供了以下两个基于TensorFlow 2.0 + TensorLayer 2.0的库：

RL教程 (状态：已发布) 包含作为教程的RL算法实现，结构简单。
RLzoo (状态：已发布) 是一个具有高级API的基准实现，支持各种流行的环境，具有更层次化的结构，便于使用。

对于多智能体RL，我建立了一个新的仓库(PyTorch):

MARS (状态：进行中) 是一个用于多智能体RL游戏的库，如PettingZoo Atari、SlimeVolleyBall等。

由于TensorFlow 2.0已经包含了动态图构建而不是静态图构建，在TensorFlow和PyTorch之间转换RL代码变得非常简单。

内容：

实现了多个版本的软演员-评论家(SAC)。

SAC 版本1：

sac.py：使用状态值函数。

论文：https://arxiv.org/pdf/1801.01290.pdf

SAC 版本2：

sac_v2.py：使用目标Q值函数代替状态值函数。

论文：https://arxiv.org/pdf/1812.05905.pdf

SAC 离散版

sac_discrete.py：用于离散动作空间。

论文（作者实际上是我在IC的一位同学）：https://arxiv.org/abs/1910.07207

SAC 离散版 PER

sac_discrete_per.py：用于离散动作空间，并使用优先经验回放(PER)。
深度确定性策略梯度(DDPG)：

ddpg.py：DDPG的实现。
双延迟DDPG(TD3)：

td3.py：TD3的实现。

论文：https://arxiv.org/pdf/1802.09477.pdf
近端策略优化(PPO)：

对于连续环境，实现了两个版本：

版本1：ppo_continuous.py 和 ppo_continuous_multiprocess.py

版本2：ppo_continuous2.py 和 ppo_continuous_multiprocess2.py

对于离散环境：

ppo_gae_discrete.py：使用广义优势估计(GAE)
演员-评论家(AC) / A2C：

ac.py：可扩展的AC/A2C，易于更改为DDPG等。

一个非常可扩展的vanilla AC/A2C版本，支持所有连续/离散确定性/非确定性情况。
DQN：

dqn.py：一个简单的DQN。
QT-Opt：

在这里实现了两个版本。
PointNet用于从图像中生成标志点的无监督学习，在这里实现。这种方法也用于基于图像的强化学习，作为一种最先进的算法，称为Transporter。

原始论文：通过条件图像生成进行物体标志点的无监督学习

RL相关论文：用于感知和控制的物体关键点无监督学习
循环策略梯度：

rdpg.py：带LSTM策略的DDPG。

td3_lstm.py：带LSTM策略的TD3。

sac_v2_lstm.py：带LSTM策略的SAC。

sac_v2_gru.py：带GRU策略的SAC。

参考文献：

基于记忆的循环神经网络控制机器人控制的仿真到现实迁移与动力学随机化
软决策树作为PPO的函数近似器:

sdt_ppo_gae_discrete.py: 将PPO策略中的网络层替换为软决策树，以实现可解释的强化学习。

论文: CDT: 可解释强化学习的级联决策树
概率混合专家(PMOE):

PMOE使用可微分的多模态高斯分布来替代标准的单模态高斯分布作为策略表示。

pmoe_sac.py: 基于离线策略SAC。

pmoe_ppo.py: 基于在线策略PPO。

论文: 概率混合专家用于高效深度强化学习
QMIX:

qmix.py: 一种完全合作的多智能体强化学习算法，演示环境使用pettingzoo。

论文: http://proceedings.mlr.press/v80/rashid18a.html
分阶段策略梯度(PPG):

待完成

论文: 分阶段策略梯度
最大后验策略优化(MPO):

待完成

论文: 最大后验策略优化
优势加权回归(AWR):

待完成

论文: 优势加权回归:简单且可扩展的离线策略强化学习

使用方法:

python ***.py --train

python ***.py --test

故障排除:

如果遇到*"Not implemented Error"*问题，可能是由于gym版本不正确。最新的gym==0.14版本无法正常工作。请安装gym==0.7或gym==0.10版本，使用pip install -r requirements.txt进行安装。

被低估的技巧:

众所周知，在实际的强化学习算法实现中，有各种技巧支持算法的性能，包括超参数、归一化、网络架构甚至隐藏激活函数等。我在此总结了在本仓库程序中遇到的一些技巧:

特定环境:
- 对于Gym中的Pendulum-v0环境，通常进行奖励预处理(r+8)/8可以提高学习效率，如这里所示。此外，该环境需要最大回合长度至少为150才能学习得好，回合太短会使学习变得困难。
- Gym中的MountainCar-v0环境具有稀疏奖励(只有到达旗帜时才有奖励)，一般的学习曲线会很嘈杂；因此这个环境可能也需要一些特殊处理。
归一化:
- 批量奖励归一化或优势归一化有时可以大大提高性能(学习效率、稳定性)，尽管理论上像PPO这样的在线策略算法在训练期间不应该应用数据归一化，因为会导致分布偏移。深入研究这个问题时，我们应该区别对待(1)归一化直接输入数据如观察、动作、奖励等；(2)归一化值的估计(状态值、状态-动作值、优势等)。对于(1)，更合理的归一化方法是保持先前均值和标准差的移动平均，以实现类似于在强化学习代理学习期间对整个数据集进行归一化的效果(这是不可能的，因为在强化学习中数据来自代理与环境的交互)。对于(2)，我们可以简单地对值估计进行归一化(而不是保持历史平均值)，因为我们不希望估计值发生分布偏移，所以我们将它们视为静态分布。
多进程:
- 基于torch.multiprocessing的多进程更新是否是正确/安全的并行化代码方式? 可以看到，使用torch.multiprocessing的官方指导(Hogwild的例子)是在没有任何明确锁的情况下应用的，这意味着当多个进程同时生成梯度并更新共享模型时，可能存在潜在的不安全性。更多讨论见这里以及一些测试和回答。总的来说，不安全更新的缺点可能被使用多进程带来的速度提升所掩盖(而且强化学习训练本身就存在巨大的变异和噪声)。
虽然我提供了几种算法的多进程版本（SAC、PPO等），但对于Gym中的小规模环境，这通常是不必要的，甚至可能效率低下。向量化环境包装器用于并行环境采样可能是学习这些环境的更合适解决方案，因为学习效率的瓶颈主要在于与环境的交互，而不是模型学习（反向传播）过程。
- 关于多进程使用的简要说明： <img src="https://yellow-cdn.veclightyear.com/0a4dffa0/c0660320-8140-45da-9584-368a23188275.png" width="40%"> 跨多个进程共享类实例及其状态需要将实例放入multiprocessing.manager中： <img src="https://yellow-cdn.veclightyear.com/0a4dffa0/0566c2a7-bf98-4c7f-a6d8-bbe51cbd3dec.png" width="40%">
PPO详情：
- 这里我总结了PPO算法在连续动作空间上的实现细节列表，对应脚本ppo_gae_continuous.py、ppo_gae_continuous2.py和ppo_gae_continuous3.py。

关于实现技巧的更多讨论，请参见我们书中的这个章节。

性能：

SAC在gym Pendulum-v0上的表现：

自动更新熵的可变alpha的SAC：

<img src="https://yellow-cdn.veclightyear.com/0a4dffa0/1d8fe26c-610b-43b9-b091-08cbf386c0d0.png" width="100%"> 不自动更新熵的可变alpha的SAC： <img src="https://yellow-cdn.veclightyear.com/0a4dffa0/705769c2-977a-4fa0-8490-c46ba633e7d4.png" width="100%">

结果显示，自动熵更新有助于智能体更快学习。

TD3在gym Pendulum-v0上的表现：

确定性策略的TD3：

<img src="https://yellow-cdn.veclightyear.com/0a4dffa0/7e914635-a76b-4d1d-88c3-a623a7ba7f85.png" width="100%"> 非确定性/随机策略的TD3： <img src="https://yellow-cdn.veclightyear.com/0a4dffa0/d945d7bc-9ca3-4f79-871d-b2b2b7827799.png" width="100%">

确定性策略的TD3似乎稍微更好，但基本相似。

AC在gym CartPole-v0上的表现：

然而，原始AC/A2C无法很好地处理连续情况，如gym Pendulum-v0。

PPO在gym LunarLanderContinuous-v2上的表现：

使用ppo_continuous_multiprocess2.py。

引用：

引用此仓库：

@misc{rlalgorithms,
  author = {Zihan Ding},
  title = {Popular-RL-Algorithms},
  year = {2019},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {\url{https://github.com/quantumiracle/Popular-RL-Algorithms}},
}

其他资源：

深度强化学习：基础、研究与应用 Springer Nature 2020

是我与董豪博士和张尚航博士编辑的书籍，涵盖了深度强化学习的广泛主题。详情请见网站和Springer网页。引用本书：

@book{deepRL-2020,
 title={Deep Reinforcement Learning: Fundamentals, Research, and Applications},
 editor={Hao Dong, Zihan Ding, Shanghang Zhang},
 author={Hao Dong, Zihan Ding, Shanghang Zhang, Hang Yuan, Hongming Zhang, Jingqing Zhang, Yanhua Huang, Tianyang Yu, Huaqing Zhang, Ruitong Huang},
 publisher={Springer Nature},
 note={\url{http://www.deepreinforcementlearningbook.org}},
 year={2020}
}