通过世界模型掌握多样化领域

DreamerV3的重新实现，这是一种可扩展且通用的强化学习算法，能够以固定的超参数掌握广泛的应用。

DreamerV3 任务

如果您发现此代码有用，请在您的论文中引用：

@article{hafner2023dreamerv3,
  title={Mastering Diverse Domains through World Models},
  author={Hafner, Danijar and Pasukonis, Jurgis and Ba, Jimmy and Lillicrap, Timothy},
  journal={arXiv preprint arXiv:2301.04104},
  year={2023}
}

了解更多：

DreamerV3

DreamerV3 从经验中学习世界模型，并利用它从想象的轨迹中训练演员评论家策略。世界模型将感知输入编码为分类表示，并根据给定的动作预测未来的表示和奖励。

DreamerV3 方法图

DreamerV3 以固定的超参数集掌握了广泛的领域，表现优于专门的方法。消除了调整的需求，减少了应用强化学习所需的专家知识和计算资源。

DreamerV3 基准分数

由于其稳健性，DreamerV3 显示出良好的扩展性。值得注意的是，使用更大的模型不仅持续提高其最终性能，还提高了数据效率。增加梯度步骤数进一步提高了数据效率。

DreamerV3 扩展行为

说明

该代码已在 Linux 和 Mac 上测试，需要 Python 3.11+。

Docker

您可以使用提供的包含指令的 Dockerfile，或按照下面的手动说明操作。

手动

安装 JAX，然后安装其他依赖项：

pip install -U -r embodied/requirements.txt
pip install -U -r dreamerv3/requirements.txt \
  -f https://storage.googleapis.com/jax-releases/jax_cuda_releases.html

简单的训练脚本：

python example.py

灵活的训练脚本：

python dreamerv3/main.py \
  --logdir ~/logdir/{timestamp} \
  --configs crafter \
  --run.train_ratio 32

要重现结果，请使用相应的配置在所需任务上进行训练，例如 --configs atari --task atari_pong。

提示

所有配置选项都列在 configs.yaml 中，您可以从命令行通过标志覆盖它们。
debug 配置块减小了网络大小、批量大小、日志间隔等，用于快速调试（但不会学习到好的模型）。
默认情况下，代码尝试在 GPU 上运行。您可以使用 --jax.platform cpu 标志切换到 CPU 或 TPU。
您可以使用多个配置块，它们将按指定顺序覆盖默认值，例如 --configs crafter size50m。
默认情况下，指标会打印到终端、附加到 JSON Lines 文件，并作为 TensorBoard 摘要写入。其他输出（如 WandB）可以在训练脚本中启用。
如果遇到 Too many leaves for PyTreeDef 错误，意味着您正在重新加载与当前配置不兼容的检查点。这通常发生在意外重用旧的 logdir 时。
如果遇到 CUDA 错误，请向上滚动，因为原因通常只是之前发生的错误，比如内存不足或 JAX 和 CUDA 版本不兼容。尝试 --batch_size 1 来排除内存不足错误。
包含了许多环境，其中一些需要安装额外的包。请参考 Dockerfile。
在自定义环境上运行时，请确保通过 enc.spaces 和 dec.spaces 正则表达式模式指定代理应该使用的观察键。
要记录环境中的指标而不向代理显示或存储在重放缓冲区中，请将它们作为带有 log_ 前缀的观察键返回，并通过 run.log_keys_... 选项启用日志记录。
要继续停止的训练运行，只需再次运行相同的命令行，并确保 --logdir 指向相同的目录。