DriveLM

DriveLM 项目介绍

项目背景

DriveLM 是一个创新项目，旨在推进自动驾驶领域的技术发展。这个项目专注于图形视觉问答（Graph Visual Question Answering, GVQA）的研究，以实现基于语言的自动驾驶。DriveLM 是 2024 年自主驾驶挑战赛的主要赛道，该挑战赛为参与者提供了一个展示最新技术的平台。

项目亮点

DriveLM-Data 数据集：项目基于现有的 nuScenes 和 CARLA 数据集创建了一个名为 DriveLM-Data 的数据集，这个数据集集成了感知、预测、规划等功能，并通过人类编写的推理逻辑将这些功能联系起来。
DriveLM-Agent 基线方法：项目提出了一个基于视觉语言模型（VLM）的基线方法，能够联合执行图形视觉问答和端到端驾驶任务。
挑战赛的主要赛道：DriveLM 是 2024 年 CVPR 自动驾驶挑战赛的主要赛道，提供了完整的基线、测试数据、提交格式和评估流程。

技术详情

Multi-modal Graph Visual Question Answering (GVQA)

DriveLM 项目中的一个重要创新是多模态图形视觉问答（GVQA）。在传统的视觉问答任务基础上，DriveLM 将问答对构建为图结构，以此来模拟人类在驾驶过程中的推理过程。这个功能使得在自动驾驶领域内不同时期的任务（从感知到最终的操作控制）之间可以通过逻辑联系进行协调。

数据集构建与特征

DriveLM-Data 包含两个主要部分：DriveLM-nuScenes 和 DriveLM-CARLA。项目使用 nuScenes 和 CARLA 模拟器的数据进行场景和对象的选择，然后通过生成涉及感知、预测和规划的问题，并提供相应的答案来构建数据集。这个过程确保了数据集的多样性和复杂性，适合用于训练和评估自动驾驶模型。