arena

arena

多样化强化学习环境平台,支持多种游戏和学习模式

DIAMBRA Arena是一个开源的强化学习环境平台,集成了多款经典街机格斗游戏。它提供符合OpenAI Gym/Gymnasium标准的Python接口,支持单人和双人模式,适用于多种强化学习研究场景。该平台兼容主流操作系统,安装简便,并配有详细文档和示例。用户注册后可免费使用,还能参与在线竞赛。

DIAMBRA Arena强化学习游戏环境AI训练对抗学习Github开源项目
<img src="https://yellow-cdn.veclightyear.com/0a4dffa0/7760a683-5d72-4a09-9711-666ee3d49d2d.jpg" alt="diambra" width="100%"/> <p align="center"> <a href="https://docs.diambra.ai">文档</a> • <a href="https://diambra.ai/">网站</a> </p> <p align="center"> <a href="https://www.linkedin.com/company/diambra">领英</a> • <a href="https://diambra.ai/discord">Discord</a> • <a href="https://www.twitch.tv/diambra_ai">Twitch</a> • <a href="https://www.youtube.com/c/diambra_ai">YouTube</a> • <a href="https://twitter.com/diambra_ai">Twitter</a> </p> <p align="center"> <a href="https://arxiv.org/abs/2210.10595"><img src="https://img.shields.io/badge/paper-arXiv:2210.10595-B31B1B?logo=arxiv" alt="论文"/></a> </p> <p align="center"> <a href="https://github.com/diambra/arena/actions/workflows/test.yaml"><img src="https://img.shields.io/github/actions/workflow/status/diambra/arena/test.yaml?label=arena%20tests&logo=github" alt="Arena测试"/></a> <a href="https://github.com/diambra/arena/actions/workflows/test_agents.yaml"><img src="https://img.shields.io/github/actions/workflow/status/diambra/arena/test_agents.yaml?label=agents%20tests&logo=github" alt="代理测试"/></a> <a href="https://github.com/diambra/arena/tags"><img src="https://img.shields.io/github/v/tag/diambra/arena?label=latest%20tag&logo=github" alt="最新标签"/></a> <a href="https://pypi.org/project/diambra-arena/"><img src="https://img.shields.io/pypi/v/diambra-arena?logo=pypi" alt="Pypi版本"/></a> </p> <p align="center"> <a href="https://docs.diambra.ai/#installation"><img src="https://img.shields.io/badge/supported%20os-linux%20%7C%20win%20%7C%20macOS-blue?logo=docker" alt="支持的操作系统"/></a> <a href="https://docs.diambra.ai/"><img src="https://img.shields.io/github/last-commit/diambra/docs/main?label=docs%20last%20update&logo=readthedocs" alt="文档最后更新"/></a> </p>

DIAMBRA Arena

目录

概述

DIAMBRA Arena是一个软件包,包含一系列用于强化学习研究和实验的高质量环境。它为流行的街机模拟视频游戏提供了标准接口,提供完全兼容OpenAI Gym/Gymnasium格式的Python API,使其使用变得简单直接。

支持所有主要操作系统(Linux、Windows和MacOS),并且可以通过Python PIP轻松安装,详见下方的**安装部分。它完全免费使用**,用户只需要<a href="https://diambra.ai/register/" target="_blank">在官方网站注册</a>

此外,它还附带<a href="https://docs.diambra.ai" target="_blank">全面的文档</a>,本仓库提供了涵盖主要用例的示例集合只需几个步骤即可运行

主要特性

所有环境都是情节性强化学习任务,具有离散动作(游戏手柄按钮)和由屏幕像素加上特定RAM状态(如角色生命条或角色舞台位置)组成的观察。

它们同时支持单人(1P)和双人(2P)模式,使其成为探索以下所有强化学习子领域的完美资源:

<img src="https://yellow-cdn.veclightyear.com/0a4dffa0/981ad3e6-4a98-48f5-9473-afa13bb9deb2.png" alt="standardRl" width="125"/><img src="https://yellow-cdn.veclightyear.com/0a4dffa0/ca65d4db-6104-4eda-9518-e7ecf453814c.png" alt="competitiveMa" width="125"/><img src="https://yellow-cdn.veclightyear.com/0a4dffa0/dba5889a-5d44-4754-b91e-cbc78eb12356.png" alt="competitiveHa" width="125"/><img src="https://yellow-cdn.veclightyear.com/0a4dffa0/c04bda35-3d48-4861-93aa-7fbe8b623922.png" alt="selfPlay" width="125"/><img src="https://yellow-cdn.veclightyear.com/0a4dffa0/0de6a84f-9f0d-4255-8715-963e35271eae.png" alt="imitationLearning" width="125"/><img src="https://yellow-cdn.veclightyear.com/0a4dffa0/88fe3ece-fd6b-4c95-94c6-d70d2c63638d.png" alt="humanInTheLoop" width="125"/>
标准强化学习竞争性<br>多智能体竞争性<br>人机对抗自我对弈模仿学习人机协作

可用游戏

接口游戏是从最受欢迎的格斗复古游戏中精选而来。虽然它们共享相同的基本机制,但提供了略微不同的挑战,具有特定功能,如不同类型和数量的角色、如何执行连击、生命条充能等。

在可能的情况下,游戏会解锁所有隐藏/奖励角色。

更多详细信息可以在我们文档的<a href="https://docs.diambra.ai/envs/games/" target="_blank">专门章节</a>中找到。

<img src="https://yellow-cdn.veclightyear.com/0a4dffa0/355abecf-448b-482c-a9ad-c33622fa7b3c.jpg" alt="doapp" width="125"/><img src="https://yellow-cdn.veclightyear.com/0a4dffa0/ba0d318e-bcf2-4496-9e3f-304841800fa6.jpg" alt="sfiii3n" width="125"/><img src="https://yellow-cdn.veclightyear.com/0a4dffa0/ac62dabb-cd5e-4b3d-b14d-c8dbe2ed64c4.jpg" alt="tektagt" width="125"/><img src="https://yellow-cdn.veclightyear.com/0a4dffa0/b85c546b-38aa-4983-b177-ff5592b4d420.jpg" alt="umk3" width="125"/><img src="https://yellow-cdn.veclightyear.com/0a4dffa0/0094f4b7-b823-4297-9266-3972e416e119.jpg" alt="samsh6sp" width="125"/><img src="https://yellow-cdn.veclightyear.com/0a4dffa0/467dcbe1-1696-4c5a-b16a-9f34fbd33e1e.jpg" alt="kof98umh" width="125"/>
生死格斗++街头霸王III<br>3rd Strike铁拳<br>Tag Tournament终极<br>真人快打3侍魂<br><br>特别版拳皇'98<br>终极之战<br>英雄版
<img src="https://yellow-cdn.veclightyear.com/0a4dffa0/618c890a-8e7d-4ce0-a2dc-cfbd0cfa3f80.jpg" alt="mvsc" width="125"/><img src="https://yellow-cdn.veclightyear.com/0a4dffa0/f88df29e-c3d3-4f26-8a70-bcec03b88f13.jpg" alt="xmvsf" width="125"/><img src="https://yellow-cdn.veclightyear.com/0a4dffa0/bf441110-be7b-4747-b73b-9b143eacf958.jpg" alt="soulclbr" width="125"/>
漫画英雄<br>对战<br>卡普空X战警<br>对战<br>街头霸王灵魂能力

更多游戏即将推出...

竞赛平台

<img src="https://yellow-cdn.veclightyear.com/0a4dffa0/7226ee75-1f9a-4a5b-97a1-748a2880b3ae.jpg" alt="DIAMBRA 竞赛平台" width="100%"/>

我们的竞赛平台允许您提交您的智能体,并与全球其他程序员在史诗级视频游戏锦标赛中一决高下!

它设有一个公开的全球排行榜,根据用户的智能体在我们不同环境中取得的最佳分数对用户进行排名。

根据您智能体的表现,它还为您提供了解锁酷炫成就的机会。

提交的智能体将被评估,其游戏回合将在我们的Twitch频道上直播。

我们致力于使提交过程尽可能顺畅,<a href="https://diambra.ai/register/" target="_blank">立即加入我们并尝试吧!</a>

安装

  • <a href="https://diambra.ai/register/" target="_blank">在我们的网站上创建账户</a>,只需点击几下即可完成,而且完全免费

  • 安装Docker桌面版:<a href="https://docs.docker.com/desktop/install/linux-install/" target="_blank">Linux</a> | <a href="https://docs.docker.com/desktop/windows/install/" target="_blank">Windows</a> | <a href="https://docs.docker.com/desktop/mac/install/" target="_blank">MacOS</a>

  • 安装DIAMBRA命令行界面:python3 -m pip install diambra

  • 安装DIAMBRA Arena:python3 -m pip install diambra-arena

强烈建议使用虚拟环境来隔离Python包的安装

快速入门与示例

DIAMBRA Arena的使用遵循标准的强化学习交互框架:智能体向环境发送动作,环境处理该动作并相应地执行转换,从初始状态到新状态,然后将观察结果和奖励返回给智能体以完成交互循环。下图展示了这种典型的交互方案和数据流。

<p align="center"> <img src="https://yellow-cdn.veclightyear.com/0a4dffa0/6ab7933b-607d-4170-bd85-148b446288bd.png" alt="rl方案" width="75%"/> </p>

下载游戏ROM并检查有效性

查看可用游戏:

diambra arena list-roms

输出示例:

[...] 标题: Dead Or Alive ++ - 游戏ID: doapp 难度等级: 最低 1 - 最高 4 SHA256 校验和: d95855c7d8596a90f0b8ca15725686567d767a9a3f93a8896b489a160e705c4e 原始ROM名称: doapp.zip 搜索关键词: ['DEAD OR ALIVE ++ [JAPAN]', 'dead-or-alive-japan', '80781', 'wowroms'] 角色列表: ['Kasumi', 'Zack', 'Hayabusa', 'Bayman', 'Lei-Fang', 'Raidou', 'Gen-Fu', 'Tina', 'Bass', 'Jann-Lee', 'Ayane'] [...]

使用上面游戏列表命令提供的搜索关键词在网上搜索ROM。请注意,遵循那里报告的特定游戏说明,并将所有ROM存储在同一个文件夹中,该文件夹的绝对路径在以下内容中将被称为 your/roms/local/path

需要特定游戏的ROM文件,检查下载的ROM的有效性:

diambra arena check-roms your/roms/local/path/romFileName.zip

有效ROM文件的输出应类似于:

Dead Or Alive ++的正确ROM文件,sha256 = d95855c7d8596a90f0b8ca15725686567d767a9a3f93a8896b489a160e705c4e

请务必查看我们的<a href="https://diambra.ai/terms" target="_blank">使用条款</a>,特别是第7条。使用本软件即表示您完全接受这些条款。

基础脚本

使用随机智能体运行一个完整回合只需约10行Python代码:

import diambra.arena env = diambra.arena.make("doapp", render_mode="human") observation, info = env.reset(seed=42) while True: env.render() actions = env.action_space.sample() observation, reward, terminated, truncated, info = env.step(actions) if terminated or truncated: observation, info = env.reset() break env.close()

要执行脚本,请运行:

diambra run -r your/roms/local/path python script.py

文档的<a href="https://docs.diambra.ai/gettingstarted/" target="_blank">入门</a>部分提供了更多详细信息和使用案例。

示例

examples/文件夹包含了代表最重要用例的即用脚本,特别是:

  • 单人环境
  • 多人环境
  • 包装器选项
  • 回合录制
  • 回合数据加载器

这些示例展示了如何利用单人和双人模式,如何设置环境包装器并指定所有选项,如何记录人类专家示范以及如何加载它们以应用模仿学习。它们可以作为模板和起点,用于探索软件包的所有功能。

<img src="https://yellow-cdn.veclightyear.com/0a4dffa0/b0100985-6191-4034-a8d1-2a979b9f4e94.gif" alt="diambraGif" width="100%"/>

强化学习库兼容性

DIAMBRA Arena 的构建旨在最大化与所有主要强化学习库的兼容性。它原生提供与两个最重要的包的接口:Stable Baselines 3 和 Ray RLlib,同时 Stable Baselines 也可用但已过时。它们的使用在<a href="https://docs.diambra.ai/handsonreinforcementlearning/" target="_blank">文档</a><a href="https://github.com/diambra/agents" target="_blank">DIAMBRA Agents</a>存储库中有详细说明。它可以以类似的方式轻松地与任何其他包对接。

原生接口,通过以下列出的特定选项安装,已经与以下版本进行了测试:

  • Stable Baselines 3 | pip install diambra-arena[stable-baselines3] (<a href="https://stable-baselines3.readthedocs.io/en/master/index.html" target="_blank">文档</a> - <a href="https://github.com/DLR-RM/stable-baselines3" target="_blank">GitHub</a> - <a href="https://pypi.org/project/stable-baselines3/" target="_blank">Pypi</a>): 2.1.*
  • Ray RLlib | pip install diambra-arena[ray-rllib] (<a href="https://docs.ray.io/en/latest/index.html" target="_blank">文档</a> - <a href="https://github.com/ray-project/ray" target="_blank">GitHub</a> - <a href="https://pypi.org/project/ray/" target="_blank">Pypi</a>): 2.7.*
  • Stable Baselines | pip install diambra-arena[stable-baselines] (<a href="https://stable-baselines.readthedocs.io/en/master/index.html" target="_blank">文档</a> - <a href="https://github.com/hill-a/stable-baselines" target="_blank">GitHub</a> - <a href="https://pypi.org/project/stable-baselines/" target="_blank">Pypi</a>): 2.10.2

参考

支持、功能请求和错误报告

要获得支持,请使用我们<a href="https://diambra.ai/discord" target="_blank">Discord 服务器</a>中的专用频道。

要请求功能或报告错误,请使用<a href="https://github.com/diambra/arena/issues" target="_blank">GitHub 问题追踪器</a>

引用

论文:<a href="https://arxiv.org/abs/2210.10595" target="_blank">https://arxiv.org/abs/2210.10595</a>

@article{Palmas22, author = {{Palmas}, Alessandro}, title = "{DIAMBRA Arena: a New Reinforcement Learning Platform for Research and Experimentation}", journal = {arXiv e-prints}, keywords = {reinforcement learning, transfer learning, multi-agent, games}, year = 2022, month = oct, eid = {arXiv:2210.10595}, pages = {arXiv:2210.10595}, archivePrefix = {arXiv}, eprint = {2210.10595}, primaryClass = {cs.AI} }

使用条款

DIAMBRA Arena 软件包受我们的<a href="https://diambra.ai/terms" target="_blank">使用条款</a>约束。使用它即表示您完全接受这些条款。

DIAMBRA, Inc. © 版权所有 2018-2024。保留所有权利。

编辑推荐精选

讯飞智文

讯飞智文

一键生成PPT和Word,让学习生活更轻松

讯飞智文是一个利用 AI 技术的项目,能够帮助用户生成 PPT 以及各类文档。无论是商业领域的市场分析报告、年度目标制定,还是学生群体的职业生涯规划、实习避坑指南,亦或是活动策划、旅游攻略等内容,它都能提供支持,帮助用户精准表达,轻松呈现各种信息。

AI办公办公工具AI工具讯飞智文AI在线生成PPTAI撰写助手多语种文档生成AI自动配图热门
讯飞星火

讯飞星火

深度推理能力全新升级,全面对标OpenAI o1

科大讯飞的星火大模型,支持语言理解、知识问答和文本创作等多功能,适用于多种文件和业务场景,提升办公和日常生活的效率。讯飞星火是一个提供丰富智能服务的平台,涵盖科技资讯、图像创作、写作辅助、编程解答、科研文献解读等功能,能为不同需求的用户提供便捷高效的帮助,助力用户轻松获取信息、解决问题,满足多样化使用场景。

热门AI开发模型训练AI工具讯飞星火大模型智能问答内容创作多语种支持智慧生活
Spark-TTS

Spark-TTS

一种基于大语言模型的高效单流解耦语音令牌文本到语音合成模型

Spark-TTS 是一个基于 PyTorch 的开源文本到语音合成项目,由多个知名机构联合参与。该项目提供了高效的 LLM(大语言模型)驱动的语音合成方案,支持语音克隆和语音创建功能,可通过命令行界面(CLI)和 Web UI 两种方式使用。用户可以根据需求调整语音的性别、音高、速度等参数,生成高质量的语音。该项目适用于多种场景,如有声读物制作、智能语音助手开发等。

Trae

Trae

字节跳动发布的AI编程神器IDE

Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能,是提升开发效率的理想工具。

AI工具TraeAI IDE协作生产力转型热门
咔片PPT

咔片PPT

AI助力,做PPT更简单!

咔片是一款轻量化在线演示设计工具,借助 AI 技术,实现从内容生成到智能设计的一站式 PPT 制作服务。支持多种文档格式导入生成 PPT,提供海量模板、智能美化、素材替换等功能,适用于销售、教师、学生等各类人群,能高效制作出高品质 PPT,满足不同场景演示需求。

讯飞绘文

讯飞绘文

选题、配图、成文,一站式创作,让内容运营更高效

讯飞绘文,一个AI集成平台,支持写作、选题、配图、排版和发布。高效生成适用于各类媒体的定制内容,加速品牌传播,提升内容营销效果。

热门AI辅助写作AI工具讯飞绘文内容运营AI创作个性化文章多平台分发AI助手
材料星

材料星

专业的AI公文写作平台,公文写作神器

AI 材料星,专业的 AI 公文写作辅助平台,为体制内工作人员提供高效的公文写作解决方案。拥有海量公文文库、9 大核心 AI 功能,支持 30 + 文稿类型生成,助力快速完成领导讲话、工作总结、述职报告等材料,提升办公效率,是体制打工人的得力写作神器。

openai-agents-python

openai-agents-python

OpenAI Agents SDK,助力开发者便捷使用 OpenAI 相关功能。

openai-agents-python 是 OpenAI 推出的一款强大 Python SDK,它为开发者提供了与 OpenAI 模型交互的高效工具,支持工具调用、结果处理、追踪等功能,涵盖多种应用场景,如研究助手、财务研究等,能显著提升开发效率,让开发者更轻松地利用 OpenAI 的技术优势。

Hunyuan3D-2

Hunyuan3D-2

高分辨率纹理 3D 资产生成

Hunyuan3D-2 是腾讯开发的用于 3D 资产生成的强大工具,支持从文本描述、单张图片或多视角图片生成 3D 模型,具备快速形状生成能力,可生成带纹理的高质量 3D 模型,适用于多个领域,为 3D 创作提供了高效解决方案。

3FS

3FS

一个具备存储、管理和客户端操作等多种功能的分布式文件系统相关项目。

3FS 是一个功能强大的分布式文件系统项目,涵盖了存储引擎、元数据管理、客户端工具等多个模块。它支持多种文件操作,如创建文件和目录、设置布局等,同时具备高效的事件循环、节点选择和协程池管理等特性。适用于需要大规模数据存储和管理的场景,能够提高系统的性能和可靠性,是分布式存储领域的优质解决方案。

下拉加载更多