跨模态融合Transformer用于多光谱目标检测的官方代码。
使用Transformer和Yolov5进行多光谱目标检测
多光谱图像对可以提供综合信息,使目标检测应用在开放世界中更加可靠和稳健。 为充分利用不同模态,我们在本文中提出了一种简单而有效的跨模态特征融合方法,称为跨模态融合Transformer(CFT)。 与之前基于CNN的工作不同,在Transformer方案的指导下,我们的网络在特征提取阶段学习长程依赖关系并集成全局上下文信息。 更重要的是,通过利用Transformer的自注意力机制,网络可以自然地进行同时的模态内和模态间融合,并稳健地捕捉RGB和热红外域之间的潜在交互,从而显著提高多光谱目标检测的性能。 在多个数据集上进行的大量实验和消融研究表明,我们的方法是有效的,并达到了最先进的检测性能。
夜间场景
<div align="left"> <img src="https://yellow-cdn.veclightyear.com/0a4dffa0/a241c7e4-25ae-4368-ab6e-7295842601e3.gif" width="600"> </div>白天场景
<div align="left"> <img src="https://yellow-cdn.veclightyear.com/0a4dffa0/dad5835f-d9e0-418c-b138-d6a7eb42e627.gif" width="600"> </div>如果您在研究中使用了此代码库,请引用我们的论文:
@article{qingyun2022cross,
title={Cross-modality attentive feature fusion for object detection in multispectral remote sensing imagery},
author={Qingyun, Fang and Zhaokui, Wang},
journal={Pattern Recognition},
volume={130},
pages={108786},
year={2022},
publisher={Elsevier}
}
@article{fang2021cross,
title={Cross-Modality Fusion Transformer for Multispectral Object Detection},
author={Fang Qingyun and Han Dapeng and Wang Zhaokui},
journal={arXiv preprint arXiv:2111.00273},
year={2021}
}
需要Python>=3.6.0,并安装所有requirements.txt中的依赖,包括PyTorch>=1.7(与yolov5相同 https://github.com/ultralytics/yolov5 )。
git clone https://github.com/DocF/multispectral-object-detection
$ cd multispectral-object-detection $ pip install -r requirements.txt
-[FLIR] [Google Drive] [百度网盘] 提取码:qwer
一个新的对齐版本。
-[LLVIP] 下载
-[VEDAI] 下载
你需要将所有标注转换为YOLOv5格式。
参考: https://github.com/ultralytics/yolov5/wiki/Train-Custom-Data
yolov5权重(预训练)
-[yolov5s] 谷歌云盘
-[yolov5m] 谷歌云盘
-[yolov5l] 谷歌云盘
-[yolov5x] 谷歌云盘
CFT权重
-[LLVIP] 谷歌云盘
-[FLIR] 谷歌云盘
一些示例在data/multispectral/目录下
一些示例在models/transformer/目录下
注意!!!我们在论文中使用了xxxx_transfomerx3_dataset.yaml。
训练: python train.py
测试: python test.py
检测: python detect_twostream.py
数据集 | CFT | mAP50 | mAP75 | mAP |
---|---|---|---|---|
FLIR | 73.0 | 32.0 | 37.4 | |
FLIR | ✔️ | 78.7 (Δ5.7) | 35.5 (Δ3.5) | 40.2 (Δ2.8) |
LLVIP | 95.8 | 71.4 | 62.3 | |
LLVIP | ✔️ | 97.5 (Δ1.7) | 72.9 (Δ1.5) | 63.6 (Δ1.3) |
VEDAI | 79.7 | 47.7 | 46.8 | |
VEDAI | ✔️ | 85.3 (Δ5.6) | 65.9(Δ18.2) | 56.0 (Δ9.2) |
对数平均漏检率
模型 | 对数平均漏检率 |
---|---|
YOLOv3-RGB | 37.70% |
YOLOv3-IR | 17.73% |
YOLOv5-RGB | 22.59% |
YOLOv5-IR | 10.66% |
基线(我们的) | 6.91% |
CFT(我们的) | 5.40% |
漏检率 - FPPI 曲线
<div align="left"> <img src="https://yellow-cdn.veclightyear.com/0a4dffa0/2cc7e680-936e-4974-99e6-229582c6e12e.png" width="500"> </div>AI辅助编程,代码自动修复
Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能,是提升开发效率的理想工具。
最强AI数据分析助手
小浣熊家族Raccoon,您的AI智能助手,致力于通过先进的人工智能技术,为用户提供高效、便捷的智能服务。无论是日常咨询还是专业问题解答,小浣熊都能以快速、准确的响应满足您的需求,让您的生活更加智能便捷。
像人一样思考的AI智能体
imini 是一款超级AI智能体,能根据人类指令,自主思考、自主完成、并且交付结果的AI智能体。
AI数字人视频创作平台
Keevx 一款开箱即用的AI数字人视频创作平台,广泛适用于电商广告、企业培训与社媒宣传,让全球企业与个人创作者无需拍摄剪辑,就能快速生成多语言、高质量的专业视频。
一站式AI创作平台
提供 AI 驱动的图片、视频生成及数字人等功能,助力创意创作
AI办公助手,复杂任务高效处理
AI办公助手,复杂任务高效处理。办公效率低?扣子空间AI助手支持播客生成、PPT制作、网页开发及报告写作,覆盖科研、商业、舆情等领域的专家Agent 7x24小时响应,生活工作无缝切换,提升50%效率!
AI小说写作助手,一站式润色、改写、扩写
蛙蛙写作—国内先进的AI写作平台,涵盖小说、学术、社交媒体等多场景。提供续写、改写、润色等功能,助力创作者高效优化写作流程。界面简洁,功能全面,适合各类写作者提升内容品质和工作效率。
全能AI智能助手,随时解答生活与工作的多样问题
问小白,由元石科技研发的AI智能助手,快速准确地解答各种生活和工作问题,包括但不限于搜索、规划和社交互动,帮助用户在日常生活中提高效率,轻松管理个人事务。
实时语音翻译/同声传译工具
Transly是一个多场景的AI大语言模型驱动的同声传译、专业翻译助手,它拥有超精准的音频识别翻译能力,几乎零延迟的使用体验和支持多国语言可以让你带它走遍全球,无论你是留学生、商务人士、韩剧美剧爱好者,还是出国游玩、多国会议、跨国追星等等,都可以满足你所有需要同传的场景需求,线上线下通用,扫除语言障碍,让全世界的语言交流不再有国界。
一键生成PPT和Word,让学习生活更轻松
讯飞智文是一个利用 AI 技术的项目,能够帮助用户生成 PPT 以及各类文档。无论是商业领域的市场分析报告、年度目标制定,还是学生群体的职业生涯规划、实习避坑指南,亦或是活动策划、旅游攻略等内容,它都能提供支持,帮助用户精准表达,轻松呈现各种信息。
最新AI工具、AI资讯
独家AI资源、AI项目落地
微信扫一扫关注公众号