RLax(发音为"relax")是一个基于JAX构建的库,提供了实现强化学习代理所需的有用构建模块。完整文档可在 rlax.readthedocs.io 查看。
您可以通过以下方式从PyPI安装RLax的最新发布版本:
pip install rlax
或者您可以从GitHub安装最新开发版本:
pip install git+https://github.com/deepmind/rlax.git
所有RLax代码随后可以使用jax.jit
即时编译以适用于不同硬件(如CPU、GPU、TPU)。
为了运行examples/
,您还需要克隆仓库并安装额外的依赖:
optax、
haiku和
bsuite。
提供的操作和函数并非完整算法,而是实现了构建能够学习的功能完备代理所需的强化学习特定数学操作:
该库支持在策略和离策略学习(即从与代理策略不同的策略采样的数据中学习)。
有关这些函数的文档以及引入和/或使用它们的论文参考,请参阅文件级和函数级的文档字符串。
查看examples/
目录,了解如何使用RLax中的一些函数来实现简单的强化学习代理,并演示在BSuite版本的Catch环境(强化学习文献中常见的代理开发单元测试)上的学习过程。
使用rlax
的其他JAX强化学习代理示例可以在bsuite中找到。
强化学习研究学习系统(代理)如何学习与其所处环境(环境)交互的问题。
代理和环境在离散的步骤中交互。在每一步,代理选择一个动作,作为回报,它会获得环境状态的(部分)快照(观察)和一个标量反馈信号(奖励)。
代理的行为由一个基于过去环境观察条件的动作概率分布(策略)来表征。代理寻求一个策略,使得从任何给定步骤开始,都能最大化从该点开始的折扣累积奖励(回报)。
通常,代理策略或环境动态本身是随机的。在这种情况下,回报是一个随机变量,最优代理策略更准确地被指定为在代理和环境的随机性下最大化回报期望(值)的策略。
有三类典型的强化学习算法:
无论如何,策略、值或模型都只是函数。在深度强化学习中,这些函数由神经网络表示。在这种设置下,通常将强化学习更新公式化为可微分的伪损失函数(类似于(无)监督学习)。在自动微分下,就可以恢复原始的更新规则。
然而请注意,只有当输入数据以正确方式采样时,这些更新才有效。例如,策略梯度损失仅在输入轨迹是当前策略的无偏样本时才有效;即数据是在策略的。该库无法检查或强制执行此类约束。但是,在函数的文档字符串中提供了描述每个操作使用方法的论文链接。
我们定义了代理与单个经验流交互的函数和操作。JAX构造vmap
可用于将这些函数应用于批次(例如,支持回放和并行数据生成)。
许多函数考虑连续时间步的策略、动作、奖励和值,以计算其输出。在这种情况下,后缀_t
和tm1
通常用于澄清每个输入在哪一步生成,例如:
q_tm1
:转换源状态中的动作值。a_tm1
:在源状态中选择的动作。r_t
:在目标状态中收集的结果奖励。discount_t
:与转换相关的折扣。q_t
:目标状态中的动作值。每个函数都提供了广泛的测试。所有测试还应验证使用jax.jit
编译为XLA和使用jax.vmap
执行批处理操作时rlax
函数的输出。
本仓库是DeepMind JAX生态系统的一部分,要引用Rlax请使用以下引用:
@software{deepmind2020jax, title = {The {D}eep{M}ind {JAX} {E}cosystem}, author = {DeepMind and Babuschkin, Igor and Baumli, Kate and Bell, Alison and Bhupatiraju, Surya and Bruce, Jake and Buchlovsky, Peter and Budden, David and Cai, Trevor and Clark, Aidan and Danihelka, Ivo and Dedieu, Antoine and Fantacci, Claudio and Godwin, Jonathan and Jones, Chris and Hemsley, Ross and Hennigan, Tom and Hessel, Matteo and Hou, Shaobo and Kapturowski, Steven and Keck, Thomas and Kemaev, Iurii and King, Michael and Kunesch, Markus and Martens, Lena and Merzic, Hamza and Mikulik, Vladimir and Norman, Tamara and Papamakarios, George and Quan, John and Ring, Roman and Ruiz, Francisco and Sanchez, Alvaro and Sartran, Laurent and Schneider, Rosalia and Sezener, Eren and Spencer, Stephen and Srinivasan, Srivatsan and Stanojevi\'{c}, Milo\v{s} and Stokowiec, Wojciech and Wang, Luyu and Zhou, Guangyao and Viola, Fabio}, url = {http://github.com/deepmind}, year = {2020}, }
一键生成PPT和Word,让学习生活更轻松
讯飞智文是一个利用 AI 技术的项目,能够帮助用户生成 PPT 以及各类文档。无论是商业领域的市场分析报告、年度目标制定,还是学生群体的职业生涯规划、实习避坑指南,亦或是活动策划、旅游攻略等内容,它都能提供支持,帮助用户精准表达,轻松呈现各种信息。
深度推理能力全新升级,全面对标OpenAI o1
科大讯飞的星火大模型,支持语言理解、知识问答和文本创作等多功能,适用于多种文件和业务场景,提升办公和日常生活的效率。讯飞星火是一个提供丰富智能服务的平台,涵盖科技资讯、图像创作、写作辅助、编程解答、科研文献解读等功能,能为不同需求的用户提供便捷高效的帮助,助力用户轻松获取信息、解决问题,满足多样化使用场景。
一种基于大语言模型的高效单流解耦语音令牌文本到语音合成模型
Spark-TTS 是一个基于 PyTorch 的开源文本到语音合成项目,由多个知名机构联合参与。该项目提供了高效的 LLM(大语言模型)驱动的语音合成方案,支持语音克隆和语音创建功能,可通过命令行界面(CLI)和 Web UI 两种方式使用。用户可以根据需求调整语音的性别、音高、速度等参数,生成高质量的语音。该项目适用于多种场景,如有声读物制作、智能语音助手开发等。
字节跳动发布的AI编程神器IDE
Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能,是提升开发效率的理想工具。
AI助力,做PPT更简单!
咔片是一款轻量化在线演示设计工具,借助 AI 技术,实现从内容生成到智能设计的一站式 PPT 制作服务。支持多种文档格式导入生成 PPT,提供海量模板、智能美化、素材替换等功能,适用于销售、教师、学生等各类人群,能高效制作出高品质 PPT,满足不同场景演示需求。
选题、配图、成文,一站式创作,让内容运营更高效
讯飞绘文,一个AI集成平台,支持写作、选题 、配图、排版和发布。高效生成适用于各类媒体的定制内容,加速品牌传播,提升内容营销效果。
专业的AI公文写作平台,公文写作神器
AI 材料星,专业的 AI 公文写作辅助平台,为体制内工作人员提供高效的公文写作解决方案。拥有海量公文文库、9 大核心 AI 功能,支持 30 + 文稿类型生成,助力快速完成领导讲话、工作总结、述职报告等材料,提升办公效率,是体制打工人的得力写作神器。
OpenAI Agents SDK,助力开发者便捷使用 OpenAI 相关功能。
openai-agents-python 是 OpenAI 推出的一款强大 Python SDK,它为开发者提供了与 OpenAI 模型交互的高效工具,支持工具调用、结果处理、追踪等功能,涵盖多种应用场景,如研究助手、财务研究等,能显著提升开发效率,让开发者更轻松地利用 OpenAI 的技术优势。
高分辨率纹理 3D 资产生成
Hunyuan3D-2 是腾讯开发的用于 3D 资产生成的强大工具,支持从文本描述、单张图片或多视角图片生成 3D 模型,具备快速形状生成能力,可生成带纹理的高质量 3D 模型,适用于多个领域,为 3D 创作提供了高效解决方案。
一个具备存储、管理和客户端操作等多种功能的分布式文件系统相关项目。
3FS 是一个功能强大的分布式文件系统项目,涵盖了存储引擎、元数据管理、客户端工具等多个模块。它支持多种文件操作,如创建文件和目录、设置布局等,同时具备高效的事件循环、节点选择和协程池管理等特性。适用于需要大规模数据存储和管理的场景,能够提高系统的性能和可靠性,是分布式存储领域的优质解决方案。
最新AI工具、AI资讯
独家AI资源、AI项目落地
微信扫一扫 关注公众号