跨模态融合Transformer用于多光谱目标检测的官方代码。
使用Transformer和Yolov5进行多光谱目标检测
多光谱图像对可以提供综合信息,使目标检测应用在开放世界中更加可靠和稳健。 为充分利用不同模态,我们在本文中提出了一种简单而有效的跨模态特征融合方法,称为跨模态融合Transformer(CFT)。 与之前基于CNN的工作不同,在Transformer方案的指导下,我们的网络在特征提取阶段学习长程依赖关系并集成全局上下文信息。 更重要的是,通过利用Transformer的自注意力机制,网络可以自然地进行同时的模态内和模态间融合,并稳健地捕捉RGB和热红外域之间的潜在交互,从而显著提高多光谱目标检测的性能。 在多个数据集上进行的大量实验和消融研究表明,我们的方法是有效的,并达到了最先进的检测性能。
夜间场景
<div align="left"> <img src="https://yellow-cdn.veclightyear.com/0a4dffa0/a241c7e4-25ae-4368-ab6e-7295842601e3.gif" width="600"> </div>白天场景
<div align="left"> <img src="https://yellow-cdn.veclightyear.com/0a4dffa0/dad5835f-d9e0-418c-b138-d6a7eb42e627.gif" width="600"> </div>如果您在研究中使用了此代码库,请引用我们的论文:
@article{qingyun2022cross,
title={Cross-modality attentive feature fusion for object detection in multispectral remote sensing imagery},
author={Qingyun, Fang and Zhaokui, Wang},
journal={Pattern Recognition},
volume={130},
pages={108786},
year={2022},
publisher={Elsevier}
}
@article{fang2021cross,
title={Cross-Modality Fusion Transformer for Multispectral Object Detection},
author={Fang Qingyun and Han Dapeng and Wang Zhaokui},
journal={arXiv preprint arXiv:2111.00273},
year={2021}
}
需要Python>=3.6.0,并安装所有requirements.txt中的依赖,包括PyTorch>=1.7(与yolov5相同 https://github.com/ultralytics/yolov5 )。
git clone https://github.com/DocF/multispectral-object-detection
$ cd multispectral-object-detection $ pip install -r requirements.txt
-[FLIR] [Google Drive] [百度网盘] 提取码:qwer
一个新的对齐版本。
-[LLVIP] 下载
-[VEDAI] 下载
你需要将所有标注转换为YOLOv5格式。
参考: https://github.com/ultralytics/yolov5/wiki/Train-Custom-Data
yolov5权重(预训练)
-[yolov5s] 谷歌云盘
-[yolov5m] 谷歌云盘
-[yolov5l] 谷歌云盘
-[yolov5x] 谷歌云盘
CFT权重
-[LLVIP] 谷歌云盘
-[FLIR] 谷歌云盘
一些示例在data/multispectral/目录下
一些示例在models/transformer/目录下
注意!!!我们在论文中使用了xxxx_transfomerx3_dataset.yaml。
训练: python train.py
测试: python test.py
检测: python detect_twostream.py
| 数据集 | CFT | mAP50 | mAP75 | mAP |
|---|---|---|---|---|
| FLIR | 73.0 | 32.0 | 37.4 | |
| FLIR | ✔️ | 78.7 (Δ5.7) | 35.5 (Δ3.5) | 40.2 (Δ2.8) |
| LLVIP | 95.8 | 71.4 | 62.3 | |
| LLVIP | ✔️ | 97.5 (Δ1.7) | 72.9 (Δ1.5) | 63.6 (Δ1.3) |
| VEDAI | 79.7 | 47.7 | 46.8 | |
| VEDAI | ✔️ | 85.3 (Δ5.6) | 65.9(Δ18.2) | 56.0 (Δ9.2) |
对数平均漏检率
| 模型 | 对数平均漏检率 |
|---|---|
| YOLOv3-RGB | 37.70% |
| YOLOv3-IR | 17.73% |
| YOLOv5-RGB | 22.59% |
| YOLOv5-IR | 10.66% |
| 基线(我们的) | 6.91% |
| CFT(我们的) | 5.40% |
漏检率 - FPPI 曲线
<div align="left"> <img src="https://yellow-cdn.veclightyear.com/0a4dffa0/2cc7e680-936e-4974-99e6-229582c6e12e.png" width="500"> </div>

企业专属的AI法律顾问
iTerms是法大大集团旗下法律子品牌,基于最先进的大语言模型(LLM)、专业的法律知识库和强大的智能体架构,帮助企业扫清合规障碍,筑牢风控防线,成为您企业专属的AI法律顾问。


稳定高效的流量提升解决方案,助力品牌曝光
稳定高效的流量提升解决方案,助力品牌曝光


最新版Sora2模型免费使用,一键生成无水印视频
最新版Sora2模型免费使用,一键生成无水印视频


实时语音翻译/同声传译工具
Transly是一个多场景的AI大语言模型驱动的同声传译、专业翻译助手,它拥有超精准的音频识别翻译能力,几乎零延迟的使用体验和支持多国语言可以让你带它走遍全球,无论你是留学生、商务人士、韩剧美剧爱好者,还是出国游玩、多国会议、跨国追星等等,都可以满足你所有需要同传的场景需求,线上线下通用,扫除语言障碍,让全世界的语言交流不再有国界。


选题、配图、成文,一站式创作,让内容运营更高效
讯飞绘文,一个AI集成平台,支持写作、选题、配图、排版和发布。高效生成适用于各类媒体的定制内容,加速品牌传播,提升内容营销效果。


AI辅助编程,代码自动修复
Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能,是提升开发效率的理想工具。


最强AI数据分析助手
小浣熊家族Raccoon,您的AI智能助手,致力于通过先进的人工智能技术,为用户提供高效、便捷的智能服务。无论是日常咨询还是专业问题解答,小浣熊都能以快速、准确的响应满足您的需求,让您的生活更加智能便捷。


像人一样思考的AI智能体
imini 是一款超级AI智能体,能根据人类指令,自主思考、自主完成、并且交付结果的AI智能体。


AI数字人视频创作平台
Keevx 一款开箱即用的AI数字人视频创作平台,广泛适用于电商广告、企业培训与社媒宣传,让全球企业与个人创作者无需拍摄剪辑 ,就能快速生成多语言、高质量的专业视频。


一站式AI创作平台
提供 AI 驱动的图片、视频生成及数字人等功能,助力创意创作
最新AI工具、AI资讯
独家AI资源、AI项目落地
