nnablaRL 是一个基于神经网络库构建的深度强化学习库,旨在用于研究、开发和生产。
安装 nnablaRL 非常简单!
$ pip install nnabla-rl
nnablaRL 仅支持 Python 版本 >= 3.8 和 nnabla 版本 >= 1.17。
nnablaRL 算法默认在 CPU 上运行。要在 GPU 上运行算法,首先按如下方式安装 nnabla-ext-cuda。 (根据您机器上安装的 CUDA 版本替换 [cuda-version]。)
$ pip install nnabla-ext-cuda[cuda-version]
# 安装示例。假设您的机器上安装了 CUDA 11.0。 $ pip install nnabla-ext-cuda110
安装 nnabla-ext-cuda 后,通过算法的配置设置要运行的 GPU ID。
import nnabla_rl.algorithms as A config = A.DQNConfig(gpu_id=0) # 使用 GPU 0。如果为负数,将在 CPU 上运行。 dqn = A.DQN(env, config=config) ...
nnablaRL 具有友好的 Python API,只需 3 行 Python 代码即可开始训练。 (注意:以下代码将在 CPU 上运行。请参阅上述说明以在 GPU 上运行。)
import nnabla_rl.algorithms as A from nnabla_rl.utils.reproductions import build_classic_control_env # 先决条件: # 运行以下命令以启用渲染! # $ pip install nnabla-rl[render] env = build_classic_control_env("Pendulum-v1", render=True) # 1 ddpg = A.DDPG(env, config=A.DDPGConfig(start_timesteps=200)) # 2 ddpg.train(env) # 3
要获取有关 nnablaRL 的更多详细信息,请参阅文档和示例。
nnablaRL 实现了大多数著名/最先进的深度强化学习算法,如 DQN、SAC、BCQ、GAIL 等。已实现的算法经过仔细测试和评估。您可以轻松地使用这些经过验证的实现开始训练您的代理。
有关已实现算法的列表,请参见此处。
您还可以在此处找到每种算法的复现和评估结果。 请注意,在您的计算机上运行复现代码时,可能无法获得完全相同的结果。结果可能会根据您的机器、nnabla/nnabla-rl 的包版本等略有变化。
在强化学习中,有两种主要的训练程序来训练智能体:在线训练和离线训练。
在线训练是一种交替执行数据收集和网络更新的训练程序。相反,离线训习是一种仅使用现有数据更新网络的训练程序。使用nnablaRL,您可以无缝切换这两种训练程序。例如,如下所示,您可以轻松地使用模拟环境在线训练机器人控制器,然后使用真实机器人数据集离线微调它。
import nnabla_rl import nnabla_rl.algorithms as A simulator = get_simulator() # 这只是一个示例。假设模拟器存在 dqn = A.DQN(simulator) # 在线训练100万次迭代 dqn.train_online(simulator, total_iterations=1000000) real_data = get_real_robot_data() # 这也是一个示例。假设您有真实机器人数据 # 使用真实数据离线微调智能体1万次迭代 dqn.train_offline(real_data, total_iterations=10000)
nnablaRL支持使用nnabla-browser可视化训练图和训练进度!
import gym import nnabla_rl.algorithms as A import nnabla_rl.hooks as H import nnabla_rl.writers as W from nnabla_rl.utils.evaluator import EpisodicEvaluator # 保存训练计算图 training_graph_hook = H.TrainingGraphHook(outdir="test") # 使用nnabla的Monitor进行评估钩子 eval_env = gym.make("Pendulum-v0") evaluator = EpisodicEvaluator(run_per_evaluation=10) evaluation_hook = H.EvaluationHook( eval_env, evaluator, timing=10, writer=W.MonitorWriter(outdir="test", file_prefix='evaluation_result'), ) env = gym.make("Pendulum-v0") sac = A.SAC(env) sac.set_hooks([training_graph_hook, evaluation_hook]) sac.train_online(env, total_iterations=100)


尝试以下交互式演示来开始。</br> 您可以直接在Colab上从下表的链接运行它。
| 标题 | 笔记本 | 目标强化学习任务 |
|---|---|---|
| 入门简单强化学习训练 | 倒立摆 | |
| 学习如何使用训练算法 | 倒立摆 | |
| 学习如何使用自定义网络模型进行训练 | 山地车 | |
| 学习如何使用不同的网络求解器进行训练 | 倒立摆 | |
| 学习如何使用不同的回放缓冲区进行训练 | 倒立摆 | |
| 学习如何使用自己的环境进行训练 | 自定义环境 | |
| 雅达利游戏训练示例 | 雅达利游戏 |
完整文档在这里。
欢迎对nnablaRL进行任何形式的贡献!详情请参阅贡献指南。
nnablaRL 根据Apache License Version 2.0许可证提供。


AI一键生成PPT,就用博思AIPPT!
博思AIPPT,新一代的AI生成PPT平台,支持智能生成PPT、AI美化PPT、文本&链接生成PPT、导入Word/PDF/Markdown文档生成PPT等,内置海量精美PPT模板,涵盖商务、教育、科技等不同风格,同时针对每个页面提供多种版式,一键自适应切换,完美适配各种办公场景。


AI赋能电商视觉革命,一站式智能商拍平台
潮际好麦深耕服装行业,是国内AI试衣效果最好的软件。使用先进AIGC能力为电商卖家批量提供优质的、低成本的商拍图。合作品牌有Shein、Lazada、安踏、百丽等65个国内外头部品牌,以及国内10万+淘宝、天猫、京东等主流平台的品牌商家,为卖家节省将近85%的出图成本,提升约3倍出图效率,让品牌能够快速上架。


企业专属的AI法律顾问
iTerms是法大大集团旗下法律子品牌,基于最先进的大语言模型(LLM)、专业的法律知识库和强大的智能体架构,帮助企业扫清合规障碍,筑牢风控防线,成为您企业专属的AI法律顾问。


稳定高效的流量提升解决方案,助力品牌曝光
稳定高效的流量提升解决方案,助力品牌曝光


最新版Sora2模型免费使用,一键生成无水印视频
最新版Sora2模型免费使用,一键生成无水印视频


实时语音翻译/同声传译工具
Transly是一个多场景的AI大语言模型驱动的同声传译、专业翻译助手,它拥有超精准的音频识别翻译能力,几乎零延迟的使用体验和支持多国语言可以让你带它走遍全球,无论你是留学生、商务人士、韩剧美剧爱好者,还是出国游玩、多国会议、跨国追星等等,都可以满足你所有需要同传的场景需求,线上线下通用,扫除语言障碍,让全世界的语言交流不再有国界。


选题、配图、成文,一站式创作,让内容运营更高效
讯飞绘文,一个AI 集成平台,支持写作、选题、配图、排版和发布。高效生成适用于各类媒体的定制内容,加速品牌传播,提升内容营销效果。


AI辅助编程,代码自动修复
Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能,是提升开发效率的理想工具。

