DRL-Pytorch

<div align=center> <img src="https://yellow-cdn.veclightyear.com/0a4dffa0/11f3e200-0e1d-4086-98f5-0cb10ff2087a.png" width=500 /> </div> <div align=center> 流行深度强化学习算法的清晰、健壮和统一的PyTorch实现 </div> <div align=center> <img src="https://img.shields.io/badge/Python-blue" /> <img src="https://img.shields.io/badge/Pytorch-ff69b4" /> <img src="https://img.shields.io/badge/DRL-blueviolet" /> </div> <br/> <br/>

0.星标历史

1.依赖项

除非另有说明，本仓库使用以下Python依赖：

gymnasium==0.29.1
numpy==1.26.1
pytorch==2.1.0

python==3.11.5

<br/>

2.如何使用我的代码

进入你想使用的算法文件夹，运行main.py从头开始训练：

python main.py

更多详细信息，请查看相应算法文件夹中的README.md文件。

<br/>

3.代码的单独链接

<br/>

4.推荐的深度强化学习资源

4.1 模拟环境：

gym和gymnasium（轻量级且标准的深度强化学习环境；易于入门；速度较慢）：

Isaac Gym（NVIDIA的物理模拟环境；GPU加速；超快）：

Sparrow（轻量级移动机器人模拟器；适合深度强化学习）：

ROS（流行且全面的机器人物理模拟器；较重且速度慢）：

Webots（流行的机器人物理模拟器；比ROS更快；真实性稍低）：

Envpool（快速向量化环境）
其他流行环境

4.2 书籍：

《强化学习：导论》--Richard S. Sutton
《深度学习入门：基于Python的理论与实现》--斋藤康毅

4.3 在线课程：

4.4 博客：

<br/>

5. 重要论文

DQN: Mnih V, Kavukcuoglu K, Silver D, 等. 通过深度强化学习实现人类水平的控制[J]. 自然, 2015, 518(7540): 529-533.

Double DQN: Van Hasselt H, Guez A, Silver D. 具有双Q学习的深度强化学习[C]//AAAI人工智能会议论文集. 2016, 30(1).

Duel DQN: Wang, Ziyu, 等. "用于深度强化学习的决斗网络架构." 国际机器学习会议. PMLR, 2016.

PER: Schaul T, Quan J, Antonoglou I, 等. 优先经验回放[J]. arXiv预印本 arXiv:1511.05952, 2015.

C51: Bellemare M G, Dabney W, Munos R. 强化学习的分布式视角[C]//国际机器学习会议. PMLR, 2017: 449-458.

NoisyNet DQN: Fortunato M, Azar M G, Piot B, 等. 用于探索的噪声网络[J]. arXiv预印本 arXiv:1706.10295, 2017.

PPO: Schulman J, Wolski F, Dhariwal P, 等. 近端策略优化算法[J]. arXiv预印本 arXiv:1707.06347, 2017.

DDPG: Lillicrap T P, Hunt J J, Pritzel A, 等. 使用深度强化学习进行连续控制[J]. arXiv预印本 arXiv:1509.02971, 2015.

TD3: Fujimoto S, Hoof H, Meger D. 解决演员-评论家方法中的函数逼近误差[C]//国际机器学习会议. PMLR, 2018: 1587-1596.

SAC: Haarnoja T, Zhou A, Abbeel P, 等. 软演员-评论家：离策略最大熵深度强化学习与随机演员[C]//国际机器学习会议. PMLR, 2018: 1861-1870.

ASL: 一小时内训练真实世界局部路径规划器：通过部分解耦强化学习和矢量化多样性

<br/>

6. 我的代码训练曲线：

Q学习：

决斗双重DQN：

CartPole	LunarLander
<img src="https://yellow-cdn.veclightyear.com/0a4dffa0/140bc2df-be25-44c6-ac5d-a262f2ed08cd.png" width="320" height="200">	<img src="https://yellow-cdn.veclightyear.com/0a4dffa0/ef6e8f06-1269-4f28-a085-a3ec511df817.png" width="320" height="200">

Atari游戏上的噪声对偶DDQN:

乒乓球	耐力赛车
<img src="https://yellow-cdn.veclightyear.com/0a4dffa0/4714fdc6-905b-4193-aa2c-4c6ad12f9c9f.png" width="320" height="200">	<img src="https://yellow-cdn.veclightyear.com/0a4dffa0/ebd32444-3b92-43f0-aab5-88b2d580e96b.png" width="320" height="200">

<br/>

优先级DQN/DDQN:

平衡杆	月球着陆器
<img src="https://yellow-cdn.veclightyear.com/0a4dffa0/b3ad2a6a-abb9-4e47-aac8-12b7f23d0fb4.svg" width="320" height="200">	<img src="https://yellow-cdn.veclightyear.com/0a4dffa0/eed8a6e5-bbbc-4d32-9749-a0e1efc34577.svg" width="320" height="200">

<br/>

分类DQN:

平衡杆	月球着陆器
<img src="https://yellow-cdn.veclightyear.com/0a4dffa0/23eaae5e-1466-49d6-bc94-51831b6f4c9c.svg" width="320" height="200">	<img src="https://yellow-cdn.veclightyear.com/0a4dffa0/d205ab6c-b73a-4dce-9747-9c83f1be4cd5.svg" width="320" height="200">

<br/>

噪声网络DQN:

平衡杆	月球着陆器
<img src="https://yellow-cdn.veclightyear.com/0a4dffa0/ae219a82-9215-47bf-9b79-8475368bae05.png" width="320" height="200">	<img src="https://yellow-cdn.veclightyear.com/0a4dffa0/594103f0-b2b0-4532-a24f-356e9de57203.png" width="320" height="200">

<br/>

离散PPO:

连续PPO:

DDPG:

钟摆	连续月球着陆器
<img src="https://yellow-cdn.veclightyear.com/0a4dffa0/79947025-eabc-4b30-9ecb-50c28f12e6c5.svg" width="320" height="200">	<img src="https://yellow-cdn.veclightyear.com/0a4dffa0/c8841a81-1922-4ce6-a69b-1b88d4fd8d3b.svg" width="320" height="200">

<br/>