PPO-for-Beginners

PPO-for-Beginners

PyTorch实现近端策略优化算法详解

该项目提供使用PyTorch从零实现近端策略优化(PPO)算法的教程。代码精简、注释详尽、结构清晰。涵盖PPO算法核心概念、网络实现及完整训练流程。适合想深入理解PPO算法细节的强化学习爱好者。

PPO强化学习PyTorch神经网络策略优化Github开源项目

初学者的PPO教程

简介

你好!我叫Eric Yu,我创建这个代码库是为了帮助初学者使用PyTorch从零开始编写近端策略优化(PPO)算法。我的目标是提供一个简洁(没有花哨技巧)且文档/风格和结构极其完善的PPO代码。我特别针对那些阅读了无数PPO实现却完全不知所云的人。

如果你不是从Medium来的,请先阅读我的系列文章

我写这段代码时假设你对Python和强化学习(RL)有一定经验,包括了解策略梯度(pg)算法和PPO的工作原理(对于PPO,只需熟悉理论层面。毕竟,这段代码应该能帮助你将PPO付诸实践)。如果不熟悉RL、pg或PPO,请按顺序阅读以下三个链接:

如果不熟悉RL,阅读OpenAI强化学习入门(全3部分)
如果不熟悉pg,阅读策略梯度的直观解释
如果不熟悉PPO理论,阅读PPO的Stack Overflow帖子
如果对这三个都不熟悉,请按从上到下的顺序阅读上面的链接。

请注意,这个PPO实现假设观察空间和动作空间都是连续的,但你可以相对容易地将其更改为离散空间。我遵循OpenAI的Spinning Up提供的PPO伪代码:https://spinningup.openai.com/en/latest/algorithms/ppo.html;伪代码行号在ppo.py中指定为"ALG STEP #"。

希望这能有所帮助,因为我当初开始学习强化学习时就希望有这样的资源。

使用方法

首先,我建议创建一个Python虚拟环境:

python -m venv venv
source venv/bin/activate
pip install -r requirements.txt

从头开始训练:

python main.py

测试模型:

python main.py --mode test --actor_model ppo_actor.pth

使用现有的actor/critic模型进行训练:

python main.py --actor_model ppo_actor.pth --critic_model ppo_critic.pth

注意:要更改超参数、环境等,请在main.py中进行;我没有将它们作为命令行参数,因为我不喜欢命令变得太长。

工作原理

main.py是我们的可执行文件。它将使用arguments.py解析参数,然后初始化我们的环境和PPO模型。根据你指定的模式(默认为训练),它将训练或测试我们的模型。要训练我们的模型,我们只需调用learn函数!这的设计灵感来自于使用stable_baselines训练PPO2的方式。

arguments.py是main将调用以解析命令行参数的文件。

ppo.py包含我们的PPO模型。所有学习魔法都发生在这个文件中。请阅读我的Medium系列文章了解它是如何工作的。我推荐的另一种方法是使用pdb(Python调试器),从main.py中调用learn开始逐步调试我的代码。

network.py包含一个示例前馈神经网络,我们可以用它来定义PPO中的actor和critic网络。

eval_policy.py包含评估策略的代码。它是一个完全独立于其他代码的模块。

graph_code目录包含自动收集数据和生成图表的代码。在一台性能不错的电脑上需要约10小时来生成我Medium文章中的所有数据。文章中使用的所有数据应该仍在graph_code/graph_data中,以防你感兴趣;如果你愿意,你可以用这些数据重新生成我使用的图表。更多详情,请阅读graph_code中的README。

这里有一个很棒的pdb教程入门:https://www.youtube.com/watch?v=VQjCx3P89yk&ab_channel=TutorialEdge
或者如果你是调试器专家,这里是文档:https://docs.python.org/3/library/pdb.html

环境

这里有一个你可以尝试的环境列表。请注意,在这个PPO实现中,你只能使用观察空间和动作空间都是Box的环境。

超参数可以在这里找到。

结果

请参考我的Medium文章

联系方式

如果你有任何问题或想与我联系,你可以在这里找到我:
邮箱:eyyu@ucsd.edu
LinkedIn:https://www.linkedin.com/in/eric-yu-engineer/

编辑推荐精选

商汤小浣熊

商汤小浣熊

最强AI数据分析助手

小浣熊家族Raccoon,您的AI智能助手,致力于通过先进的人工智能技术,为用户提供高效、便捷的智能服务。无论是日常咨询还是专业问题解答,小浣熊都能以快速、准确的响应满足您的需求,让您的生活更加智能便捷。

imini AI

imini AI

像人一样思考的AI智能体

imini 是一款超级AI智能体,能根据人类指令,自主思考、自主完成、并且交付结果的AI智能体。

Keevx

Keevx

AI数字人视频创作平台

Keevx 一款开箱即用的AI数字人视频创作平台,广泛适用于电商广告、企业培训与社媒宣传,让全球企业与个人创作者无需拍摄剪辑,就能快速生成多语言、高质量的专业视频。

即梦AI

即梦AI

一站式AI创作平台

提供 AI 驱动的图片、视频生成及数字人等功能,助力创意创作

扣子-AI办公

扣子-AI办公

AI办公助手,复杂任务高效处理

AI办公助手,复杂任务高效处理。办公效率低?扣子空间AI助手支持播客生成、PPT制作、网页开发及报告写作,覆盖科研、商业、舆情等领域的专家Agent 7x24小时响应,生活工作无缝切换,提升50%效率!

TRAE编程

TRAE编程

AI辅助编程,代码自动修复

Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能,是提升开发效率的理想工具。

AI工具TraeAI IDE协作生产力转型热门
蛙蛙写作

蛙蛙写作

AI小说写作助手,一站式润色、改写、扩写

蛙蛙写作—国内先进的AI写作平台,涵盖小说、学术、社交媒体等多场景。提供续写、改写、润色等功能,助力创作者高效优化写作流程。界面简洁,功能全面,适合各类写作者提升内容品质和工作效率。

AI辅助写作AI工具蛙蛙写作AI写作工具学术助手办公助手营销助手AI助手
问小白

问小白

全能AI智能助手,随时解答生活与工作的多样问题

问小白,由元石科技研发的AI智能助手,快速准确地解答各种生活和工作问题,包括但不限于搜索、规划和社交互动,帮助用户在日常生活中提高效率,轻松管理个人事务。

热门AI助手AI对话AI工具聊天机器人
Transly

Transly

实时语音翻译/同声传译工具

Transly是一个多场景的AI大语言模型驱动的同声传译、专业翻译助手,它拥有超精准的音频识别翻译能力,几乎零延迟的使用体验和支持多国语言可以让你带它走遍全球,无论你是留学生、商务人士、韩剧美剧爱好者,还是出国游玩、多国会议、跨国追星等等,都可以满足你所有需要同传的场景需求,线上线下通用,扫除语言障碍,让全世界的语言交流不再有国界。

讯飞智文

讯飞智文

一键生成PPT和Word,让学习生活更轻松

讯飞智文是一个利用 AI 技术的项目,能够帮助用户生成 PPT 以及各类文档。无论是商业领域的市场分析报告、年度目标制定,还是学生群体的职业生涯规划、实习避坑指南,亦或是活动策划、旅游攻略等内容,它都能提供支持,帮助用户精准表达,轻松呈现各种信息。

AI办公办公工具AI工具讯飞智文AI在线生成PPTAI撰写助手多语种文档生成AI自动配图热门
下拉加载更多