强化学习工具集:实用AI解决方案总汇

Marco-o1

Marco-o1

Marco-o1机器翻译

多语言翻译中的复杂问题解决利器

Xwin-LM-7B-V0.2

Xwin-LM-7B-V0.2

AlpacaEvalXwin-LM

优化大语言模型对齐技术,显著提升性能

Starling-LM-7B-beta

Starling-LM-7B-beta

Openchat-3.5-0106强化学习

Starling-LM-7B-beta提升语言模型生成质量与安全性

HighwayEnv

HighwayEnv

highway-env自动驾驶

多场景自动驾驶模拟与决策训练环境

Reinforcement-Learning-Papers

Reinforcement-Learning-Papers

强化学习论文集

强化学习前沿论文收录与汇总

sumo-rl

sumo-rl

SUMO-RL强化学习

用于智能交通信号控制的强化学习框架

awesome-LLM-game-agent-papers

awesome-LLM-game-agent-papers

LLM游戏智能体

大型语言模型驱动的游戏智能体研究最新进展

q-transformer

q-transformer

Q-Transformer强化学习

自回归Q函数实现离线强化学习

LearningHumanoidWalking

LearningHumanoidWalking

人形机器人双足行走

强化学习驱动的人形机器人双足行走算法

simglucose

simglucose

simglucose糖尿病模拟器

Python实现的1型糖尿病模拟器助力强化学习研究

Thought-Cloning

Thought-Cloning

Thought Cloning人工智能

模仿人类思维的智能体学习框架

simple_rl

simple_rl

强化学习Python

轻量级Python强化学习实验框架

carla-roach

carla-roach

CARLA-Roach自动驾驶

端到端城市自动驾驶仿真框架

RL-Theory-book

RL-Theory-book

强化学习理论

强化学习理论与算法全面指南

robotic-warehouse

robotic-warehouse

多机器人仓库强化学习

多智能体仓库机器人协作模拟环境

Grid2Op

Grid2Op

Grid2Op电网操作

模块化电力系统仿真与强化学习平台

Reinforcement-Learning-Papers

Reinforcement-Learning-Papers

强化学习多智能体

强化学习顶会论文精选资源库

HandyRL

HandyRL

HandyRL强化学习

高效实用的分布式强化学习框架

REINVENT4

REINVENT4

REINVENT分子设计

人工智能驱动的多功能分子设计工具

Gym-Trading-Env

Gym-Trading-Env

Gym Trading Env强化学习

Gymnasium金融交易环境 支持强化学习算法研究