gym-sokoban: OpenAI Gym环境下的推箱子游戏实现

gym-sokoban:推箱子游戏的OpenAI Gym环境实现

推箱子(Sokoban)是一款经典的益智类游戏,玩家需要在有限的空间内将所有箱子推到指定的目标位置。这个看似简单的游戏实际上包含了复杂的策略和规划,因此成为了强化学习(Reinforcement Learning)算法研究的理想环境。gym-sokoban项目正是基于这一游戏,为强化学习研究提供了一个标准化的测试平台。

项目简介

gym-sokoban是一个基于OpenAI Gym框架实现的推箱子游戏环境。该项目由Max-Philipp B. Schrader开发,旨在为强化学习算法提供一个具有挑战性的测试场景。项目的核心特点包括:

完全符合OpenAI Gym接口标准,便于与现有的强化学习框架集成。
实现了推箱子游戏的核心规则和机制。
提供多种难度级别和游戏变体,增加了环境的多样性。
支持随机关卡生成,避免算法过拟合于固定的关卡设计。
提供多种渲染模式,便于可视化和调试。

推箱子游戏示例

环境安装

gym-sokoban的安装非常简单,可以通过pip直接安装:

pip install gym-sokoban

或者从GitHub仓库克隆源码安装:

git clone git@github.com:mpSchrader/gym-sokoban.git
cd gym-sokoban
pip install -e .

游戏环境详解

游戏元素

推箱子游戏环境由以下几个基本元素组成:

墙壁:固定障碍物,玩家和箱子都无法穿过。
地板:可自由移动的空间。
箱子:可被玩家推动的物体。
目标点:箱子需要被推到的位置。
玩家:由用户或算法控制的角色。

这些元素在不同状态下会有不同的表现,例如箱子在目标点上和不在目标点上的外观是不同的。

动作空间

gym-sokoban提供了9种可能的动作:

无操作(No Operation)
向上推(Push Up)
向下推(Push Down)
向左推(Push Left)
向右推(Push Right)
向上移动(Move Up)
向下移动(Move Down)
向左移动(Move Left)
向右移动(Move Right)

"移动"动作只在目标方向为空地时有效,而"推"动作则会尝试推动相邻的箱子。

奖励机制

gym-sokoban的奖励机制设计如下:

完成游戏(所有箱子都推到目标点):+10分
将箱子推到目标点:+1分
将箱子推离目标点:-1分
每一步操作:-0.1分

这种奖励设计鼓励算法尽快完成任务,同时避免不必要的操作。

关卡生成

gym-sokoban的一大特色是其随机关卡生成机制,这使得强化学习算法无法简单地记忆固定的解决方案。关卡生成过程包括三个主要阶段:

拓扑生成:使用随机游走算法生成基本的房间结构。
元素放置:随机放置玩家、箱子和目标点。
反向游戏:通过反向推箱子来确保生成的关卡是可解的。

关卡生成示例

配置选项

gym-sokoban提供了多种配置选项,以适应不同的研究需求:

渲染模式:支持RGB数组、人类可视化、TinyWorld等多种渲染模式。
房间大小:从7x7的小房间到13x13的大房间,适应不同复杂度的任务。
箱子数量:可以选择2到5个箱子,调整任务难度。
游戏变体:
- 固定目标:每个箱子有特定的目标点。
- 多玩家:同时控制两个玩家。
- 推拉模式:允许玩家推动和拉动箱子。
- Boxoban:使用DeepMind预生成的谜题。

这些配置选项使得gym-sokoban能够适应各种研究场景,从简单的算法测试到复杂的多智能体协作研究。