HandyRL

HandyRL

高效实用的分布式强化学习框架

HandyRL是一个基于Python和PyTorch的分布式强化学习框架,已在Kaggle竞赛中取得优异成绩。它采用离线策略修正的策略梯度算法和学习者-工作者架构,支持自定义环境和大规模训练。HandyRL的高并行能力和实用性使其在竞争性游戏AI开发中表现出色,能够快速训练出强大的AI模型。

HandyRL强化学习分布式训练离线策略修正PyTorchGithub开源项目

HandyRL

快速上手,轻松制胜

  • 准备好你自己的环境
  • 让我们开始大规模分布式强化学习
  • 获得你的强大AI智能体!

HandyRL是一个基于Python和PyTorch的便捷简单框架,用于分布式强化学习,适用于你自己的环境。HandyRL专注于实用的算法和实现,旨在创建强大且能够在竞争性游戏中获胜的AI。对于大规模训练,HandyRL根据你的环境提供可控的高并行能力。

HandyRL除重要更新外,每月初更新一次。我们感谢所有的贡献。如果你发现bug或有建议,请通过创建issue和PR告诉我们。

更多关于HandyRL

HandyRL主要提供带有离线策略修正的策略梯度算法。 从稳定性和性能的角度来看,离线版本的策略梯度在实践中表现良好。因此,它是创建基线AI模型的良好首选。 你可以使用一些离线策略更新方法的变体(策略和价值的目标),从传统方法(蒙特卡洛、TD(λ))到新颖方法(V-Trace、UPGO)。 这些项目可以在config.yaml中更改。

作为训练架构,HandyRL采用类似IMPALA的学习器-工作器风格架构。 学习器是训练的大脑,负责更新模型和控制工作器。 工作器有两个角色。它们异步生成回合(轨迹)并评估已训练的模型。 在回合生成中,默认进行自我对弈。

安装

安装依赖

HandyRL支持Python3.7+。首先,将HandyRL仓库复制或fork到你的环境中。如果你想在私人项目中使用这个脚本,只需将文件复制到你的项目目录并在那里修改即可。

git clone https://github.com/DeNA/HandyRL.git
cd HandyRL

然后,安装额外的库(如numpy、pytorch)。或者在虚拟环境或容器(如Docker)中运行。

pip3 install -r requirements.txt

要使用Kaggle环境的游戏(如Hungry Geese),你还可以安装额外的依赖。

pip3 install -r handyrl/envs/kaggle/requirements.txt

入门指南

为井字游戏训练AI模型

本节展示如何为井字游戏训练模型。井字游戏是一个非常简单的游戏。你可以通过谷歌搜索"井字游戏"来玩。

步骤1:设置配置

config.yaml中设置你的训练配置。当你使用井字游戏和批量大小64进行训练时,设置如下:

env_args: env: 'TicTacToe' train_args: ... batch_size: 64 ...

注意:这里是HandyRL中实现的游戏列表。所有参数都在配置参数中显示。

步骤2:开始训练!

创建配置后,你可以通过运行以下命令开始训练。训练的模型每隔config.yaml中描述的update_episodes次数保存在models文件夹中。

python main.py --train

步骤3:评估

训练后,你可以对任何模型进行评估。下面的代码使用4个进程对第1个epoch的模型进行100场游戏的评估。

python main.py --eval models/1.pth 100 4

注意:默认对手AI是在evaluation.py中实现的随机智能体。你可以将智能体更改为你的任何智能体。

文档

使用案例

编辑推荐精选

Pixmax

Pixmax

一站式AI短剧创作平台

Pixmax专注打造下一代“ AI 视觉创作引擎”,整合行业顶尖 AI 大模型、工工业级精准控制及企业级协同管理功能,是全方位的 AI 内容创作平台。

豆包

豆包

字节跳动旗下 AI 智能助手

字节跳动旗下 AI 智能助手

GPT Plus|Pro充值

GPT Plus|Pro充值

GPT充值

支持 ChatGPT Plus / Pro 充值服务,支付便捷,自动发货,售后可查。

GPT Image 2中文站

GPT Image 2中文站

AI 图片生成平台

GPT Image 2 是面向用户的 AI 图片生成平台,支持文生图、图生图及多模型创意工作流。

Vecbase

Vecbase

你的AI Agent团队

Vecbase 是专为 AI 团队打造的智能工作空间,将数据管理、模型协作与知识沉淀整合于一处。算法、产品与业务在同一平台无缝协同,让从数据到 AI 应用的落地更快一步。

音述AI

音述AI

全球首个AI音乐社区

音述AI是全球首个AI音乐社区,致力让每个人都能用音乐表达自我。音述AI提供零门槛AI创作工具,独创GETI法则帮助用户精准定义音乐风格,AI润色功能支持自动优化作品质感。音述AI支持交流讨论、二次创作与价值变现。针对中文用户的语言习惯与文化背景进行专门优化,支持国风融合、C-pop等本土音乐标签,让技术更好地承载人文表达。

QoderWork

QoderWork

阿里Qoder团队推出的桌面端AI智能体

QoderWork 是阿里推出的本地优先桌面 AI 智能体,适配 macOS14+/Windows10+,以自然语言交互实现文件管理、数据分析、AI 视觉生成、浏览器自动化等办公任务,自主拆解执行复杂工作流,数据本地运行零上传,技能市场可无限扩展,是高效的 Agentic 生产力办公助手。

lynote.ai

lynote.ai

一站式搞定所有学习需求

不再被海量信息淹没,开始真正理解知识。Lynote 可摘要 YouTube 视频、PDF、文章等内容。即时创建笔记,检测 AI 内容并下载资料,将您的学习效率提升 10 倍。

AniShort

AniShort

为AI短剧协作而生

专为AI短剧协作而生的AniShort正式发布,深度重构AI短剧全流程生产模式,整合创意策划、制作执行、实时协作、在线审片、资产复用等全链路功能,独创无限画布、双轨并行工业化工作流与Ani智能体助手,集成多款主流AI大模型,破解素材零散、版本混乱、沟通低效等行业痛点,助力3人团队效率提升800%,打造标准化、可追溯的AI短剧量产体系,是AI短剧团队协同创作、提升制作效率的核心工具。

seedancetwo2.0

seedancetwo2.0

能听懂你表达的视频模型

Seedance two是基于seedance2.0的中国大模型,支持图像、视频、音频、文本四种模态输入,表达方式更丰富,生成也更可控。

下拉加载更多