simple_rl

一个用于在Python中进行强化学习实验的简单框架。

还有许多其他优秀的RL库。这个框架的目标有两个：

简单性。
结果的可重复性。

这里有一个稍早版本的简短教程[链接]。从0.77版本开始，该库应该同时支持Python 2和Python 3。如果您发现不是这样，请告诉我！

simple_rl需要[numpy]和[matplotlib]。一些MDP还有可视化功能，这需要[pygame]。同时还支持连接到任何[Open AI Gym环境]。该库附带了基本的测试脚本，包含在_tests_目录中。我建议在安装库时运行它并确保所有测试都通过。

[文档可在此处获取]

安装

最简单的安装方式是使用[pip]。只需运行：

pip install simple_rl

或者，您可以在[这里]下载simple_rl。

引用

如果您在研究中使用simple_rl，请按以下方式引用[研讨会论文]：

@article{abel2019simple_rl,
  title={simple_rl: Reproducible Reinforcement Learning in Python},
  author={David Abel},
  booktitle={ICLR Workshop on Reproducibility in Machine Learning},
  year={2019}
}

新功能：轻松重现结果

我刚刚添加了一个令我相当兴奋的新功能：轻松重现结果。现在每次实验运行都会在_results/exp_name/目录中输出一个"full_experiment.txt"文件。新函数_reproduce_from_exp_file(file_name)，当指向一个实验目录时，将根据这个文件重新组装并重新运行整个实验。这里的目标是鼓励简单地跟踪实验并实现快速结果复现。但它只适用于MDP - 目前还不适用于OOMDP、POMDP或MarkovGames（如果有人想让它工作，我会很高兴）。

请查看下面的第二个示例，快速了解如何使用此功能。

示例

[examples]目录中包含了一些展示基本功能的示例。

要运行一个简单的实验，从_simple_rl.run_experiments_导入_run_agents_on_mdp(agent_list, mdp)_方法，并使用一些代理为给定的MDP调用它。例如：

# 导入
from simple_rl.run_experiments import run_agents_on_mdp
from simple_rl.tasks import GridWorldMDP
from simple_rl.agents import QLearningAgent

# 运行实验
mdp = GridWorldMDP()
agent = QLearningAgent(mdp.get_actions())
run_agents_on_mdp([agent], mdp)

运行上述代码将在简单的GridWorld上运行_Q_-learning。完成后，它会将结果存储在_cur_dir/results/*_中，并生成并打开以下图表：

[图片]

对于稍微复杂一点的示例，请查看_simple_example.py_的代码。这里我们在Russell-Norvig人工智能教科书中的网格世界上运行两个代理：

from simple_rl.agents import QLearningAgent, RandomAgent, RMaxAgent
from simple_rl.tasks import GridWorldMDP
from simple_rl.run_experiments import run_agents_on_mdp

# 设置MDP
mdp = GridWorldMDP(width=4, height=3, init_loc=(1, 1), goal_locs=[(4, 3)], lava_locs=[(4, 2)], gamma=0.95, walls=[(2, 2)], slip_prob=0.05)

# 设置代理
ql_agent = QLearningAgent(actions=mdp.get_actions())
rmax_agent = RMaxAgent(actions=mdp.get_actions())
rand_agent = RandomAgent(actions=mdp.get_actions())

# 运行实验并生成图表
run_agents_on_mdp([ql_agent, rmax_agent, rand_agent], mdp, instances=5, episodes=50, steps=10)

上述代码将生成以下图表：

[图片]

为了展示新的可重复性功能，假设我们现在想重现上述实验。我们只需执行以下操作：

from simple_rl.run_experiments import reproduce_from_exp_file

reproduce_from_exp_file("gridworld_h-3_w-4")

这将根据幕后创建和填充的文件重新运行整个实验。然后，我们应该得到以下图表：

[图片] 很简单！这是一个新功能，可能会有一些bug——如果遇到问题请告诉我。目前它只适用于MDP，不适用于POMDP/OOMDP/MarkovGameMDP。更多详细信息请查看reproduce_example.py。

概述

(agents)：一些基本代理的代码（随机行为者、Q-learning、[R-Max]、带线性近似器的_Q_-learning等）。
(experiments)：用于跟踪参数和重现结果的Experiment类代码。
(mdp)：基本MDP和MDPState类的代码，以及MDPDistribution类（用于终身学习）。还包含OO-MDP实现[Diuk et al. 2008]。
(planning)：规划算法的实现，包括ValueIteration和MCTS [Couloum 2006]，后者仍在开发中。
(tasks)：一些标准MDP的实现（网格世界、N链、出租车[Dietterich 2000]和OpenAI Gym）。
(utils)：图表和其他实用工具的代码。