Transformer 是样本高效的世界模型 <br> Vincent Micheli*, Eloi Alonso*, François Fleuret <br> * 表示贡献相同
<div align='center'> IRIS 智能体在 100k 环境步骤后的表现,即两小时的实时体验 <img alt="IRIS 在 Asterix、Boxing、Breakout、Demon Attack、Freeway、Gopher、Kung Fu Master、Pong 游戏中的表现" src="https://yellow-cdn.veclightyear.com/0a4dffa0/a306a341-28ae-4ee7-bbc9-fe6768e7d4f3.gif"> </div>简要总结
如果您发现这份代码或论文有用,请使用以下引用:
@inproceedings{
iris2023,
title={Transformers are Sample-Efficient World Models},
author={Vincent Micheli and Eloi Alonso and Fran{\c{c}}ois Fleuret},
booktitle={The Eleventh International Conference on Learning Representations },
year={2023},
url={https://openreview.net/forum?id=vhFu1Acb0xb}
}
pip install -r requirements.txt
python src/main.py env.train.id=BreakoutNoFrameskip-v4 common.device=cuda:0 wandb.mode=online
默认情况下,日志会同步到 weights & biases,设置 wandb.mode=disabled
可以关闭同步。
config/
目录,主配置文件是 config/trainer.yaml
。每次新运行都位于 outputs/YYYY-MM-DD/hh-mm-ss/
目录。该文件夹的结构如下:
outputs/YYYY-MM-DD/hh-mm-ss/ │ └─── checkpoints │ │ last.pt | | optimizer.pt | | ... │ │ │ └─── dataset │ │ 0.pt │ │ 1.pt │ │ ... │ └─── config │ | trainer.yaml | └─── media │ │ │ └─── episodes │ | │ ... │ │ │ └─── reconstructions │ | │ ... │ └─── scripts | | eval.py │ │ play.sh │ │ resume.sh | | ... | └─── src | | ... | └─── wandb | ...
checkpoints
:包含模型的最新检查点、优化器和数据集。media
:
episodes
:包含用于可视化目的的训练/测试/想象情节。reconstructions