3D目标检测是计算机视觉领域的一个重要研究方向,对自动驾驶、增强现实等应用具有重要意义。近年来,随着深度学习技术的发展,基于深度神经网络的3D目标检测方法取得了显著进展。然而,仅依靠深度学习难以准确估计3D位置和姿态信息。为此,研究人员提出了将深度学习与几何方法相结合的思路,以充分利用两者的优势。GitHub上备受关注的3D-BoundingBox项目正是这一思路的代表性实现。
3D-BoundingBox是由Soroush Khadem等人开发的开源项目,旨在实现从单张2D图像估计3D边界框。该项目是论文《3D Bounding Box Estimation Using Deep Learning and Geometry》的PyTorch实现版本,结合了深度学习和几何方法的优势。截至目前,该项目在GitHub上已获得436颗星标和96次分支,反映了研究界对这一方法的高度关注。
3D-BoundingBox的核心思路是将3D边界框估计问题分解为两个子任务:
具体来说,该方法首先使用卷积神经网络从224x224大小的图像中预测目标的3D方向和相对尺寸。然后,利用2D边界框提供的几何约束,计算出3D位置信息。最后,将估计的3D方向、尺寸和位置信息组合,得到完整的3D边界框。
这种方法的优势在于:
3D-BoundingBox项目主要基于PyTorch深度学习框架实现。此外,还使用了CUDA进行GPU加速,以及OpenCV处理图像。项目的主要组件包括:
3D边界框估计网络:基于PyTorch实现的深度神经网络,用于预测目标的3D方向和相对尺寸。
YOLOv3目标检测:使用OpenCV中的YOLOv3模型进行2D目标检测,获取2D边界框和目标类别。
3D位置计算:结合神经网络输出和2D边界框,使用几何方法计算3D位置。
可视化模块:将3D边界框投影回2D图像进行可视化。
项目还提供了训练和推理脚本,方便用户进行模型训练和测试。
要使用3D-BoundingBox进行3D目标检测,首先需要下载预训练权重:
cd weights/ ./get_weights.sh
这将下载3D边界框网络和YOLOv3的预训练权重。然后可以使用以下命令运行推理:
python Run.py [--show-yolo]
该命令会对默认目录(eval/image_2/)中的所有图像进行处理,并可选地显示2D边界框。按空格键可以切换到下一张图像,按其他键退出。
此外,项目还提供了处理视频的功能:
python Run.py --video [--hide-debug]
这将处理KITTI数据集中的默认视频,也可以通过--image-dir
和--cal-dir
参数指定其他视频源。
要训练自己的模型,首先需要下载KITTI数据集,包括左侧彩色图像、训练标签和相机标定矩阵。然后运行:
python Train.py
模型默认每10个epoch保存一次,损失值每10个batch打印一次。值得注意的是,由于方向损失函数的设计,最终损失不会收敛到0,而是趋向-1。作者表示,经过10个epoch的训练就可以获得不错的结果。