Vista

这是以下论文的官方实现:

Vista: 一个具有高保真度和多样控制能力的可泛化驾驶世界模型

Shenyuan Gao、Jiazhi Yang、Li Chen、Kashyap Chitta、Yihang Qiu、Andreas Geiger、Jun Zhang、Hongyang Li

📜 [技术报告]、🎬 [视频演示]、🤗 [模型权重]

🔥 亮点

Vista 是一个可泛化的驾驶世界模型，能够:

在各种场景中预测高保真度的未来。
将预测扩展到连续和长时间范围。
执行多模态动作(转向角、速度、指令、轨迹、目标点)。
在不访问真实动作的情况下为不同动作提供奖励。

📢 新闻

[!重要] 之前上传的模型在合并EMA权重时出现了错误。请下载下方的最新模型。

[2024/06/06] 我们在Hugging Face和Google Drive上发布了v1.0版本的模型权重。
[2024/06/04] 我们发布了安装、训练和采样脚本。
[2024/05/28] 我们发布了我们模型的实现。
[2024/05/28] 我们在arXiv上发布了我们的论文。

📋 待办事项

使用更大批量和更多迭代训练的新模型权重。
内存高效的训练和采样。
用于交互的在线演示。

🕹️ 入门指南

❤️ 致谢

我们的实现基于Stability AI的generative-models。感谢他们出色的开源工作！

⭐ 引用

如果我们论文和代码的任何部分对您的研究有帮助，请考虑引用我们并给我们的仓库点个星。

@article{gao2024vista,
 title={Vista: A Generalizable Driving World Model with High Fidelity and Versatile Controllability}, 
 author={Shenyuan Gao and Jiazhi Yang and Li Chen and Kashyap Chitta and Yihang Qiu and Andreas Geiger and Jun Zhang and Hongyang Li},
 journal={arXiv preprint arXiv:2405.17398},
 year={2024}
}

@inproceedings{yang2024genad,
  title={Generalized Predictive Model for Autonomous Driving},
  author={Jiazhi Yang and Shenyuan Gao and Yihang Qiu and Li Chen and Tianyu Li and Bo Dai and Kashyap Chitta and Penghao Wu and Jia Zeng and Ping Luo and Jun Zhang and Andreas Geiger and Yu Qiao and Hongyang Li},
  booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
  year={2024}
}