远程遥感多模态大语言模型资源全面汇总
本项目是远程遥感多模态大语言模型(RS-MLLMs)领域的首个综述,全面汇总了最新模型架构、训练流程、数据集和评估基准等资源。内容涵盖视觉-语言预训练模型、智能代理等多个方面,持续追踪RS-MLLMs的最新进展。项目不断更新,旨在为研究人员提供全面的RS-MLLMs资源库,促进该领域的发展。
🔥🔥🔥 遥感多模态大语言模型综述 [项目主页]本页面 |
西北工业大学人工智能、光学与电子学院(iOPEN)
<div align='center'> :sparkles: 首个遥感多模态大语言模型(RS-MLLMs)综述。 </div>✨✨✨ 精心策划的RS-MLLMs资源宝库!!!
🎉🚀💡 本网站将实时更新,追踪RS-MLLMs的最新发展状况!!!
📑📚🔍 汇集了模型架构、训练流程、数据集、综合评估基准、遥感智能代理、指令微调技术等丰富资源。
🌟🔥📢 聚焦视觉-语言领域的遥感多模态大语言模型论文集锦。
<p align="center"> <img src="https://yellow-cdn.veclightyear.com/835a84d5/f5a6121c-0a76-4352-b9b1-217581c7a158.jpg" width="100%" height="100%"> </p><font size=7><div align='center'> :apple: 遥感多模态大语言模型 </div></font>
<p align="center"> <img src="https://yellow-cdn.veclightyear.com/835a84d5/54bd240c-937e-476d-aa1e-2b515d99e453.jpg" width="70%" height="100%"> </p> <font size=7><div align='center'> :apple: 遥感智能代理 </div></font>在本仓库中,我们将收集并记录与遥感多模态大语言模型(视觉-语言)相关的研究人员及其杰出工作。
<font size=5><center><b> 目录 </b> </center></font>
标题 | 发表场所 | 日期 | 代码 | 备注 |
---|---|---|---|---|
arXiv | 2024-06-14 | Github | - | |
Remote Sensing | 2024-04-23 | Github | - | |
arXiv | 2024-03-29 | Github | - | |
Popeye: 用于多源遥感图像船舶检测的统一视觉语言模型 <br>W. Zhang, M. Cai, T. Zhang, G. Lei, Y. Zhuang, 和 X. Mao.<br> | arXiv | 2024-03-06 | - | - |
用于遥感图像描述和检索的大型语言模型 <br>J. D. Silva, J. Magalhaes, 和 D. Tuia.<br> | arXiv | 2024-02-09 | - | - |
arXiv | 2024-02-04 | Github | - | |
arXiv | 2024-01-30 | Github | - | |
arXiv | 2024-01-18 | Github | 数据集 | |
arXiv | 2023-11-24 | Github | 被CVPR-24接收 | |
arXiv | 2023-07-28 | Github | - |
标题 | 发表地点 | 日期 | 代码 | 备注 |
---|---|---|---|---|
RS-Agent: 通过智能代理实现遥感任务自动化 <br>W. Xu, Z. Yu, Y. Wang, J. Wang, 和 M. Peng.<br> | arXiv | 2024-06-11 | - | - |
GeoLLM-Engine: 构建地理空间副驾驶的现实环境 <br>S. Singh, M. Fore, D. Stamoulis, 和 D. Group.<br> | arXiv | 2024-04-23 | - | - |
评估遥感平台中的工具增强型代理 <br>S. Singh, M. Fore, 和 D. Stamoulis.<br> | arXiv | 2024-04-23 | - | - |
arXiv | 2024-04-01 | Github | - | |
arXiv | 2024-01-17 | Github | - | |
Tree-GPT: 用于森林遥感图像理解和交互式分析的模块化大型语言模型专家系统 <br>S. Du, S. Tang, W. Wang, X. Li, 和 R. Guo.<br> | arXiv | 2023-10-07 | - | - |
标题 | 发表地点 | 日期 | 代码 | 备注 |
---|---|---|---|---|
arXiv | 2024-01-02 | Github | - | |
T-GRS | 2024-04-18 | Github | arXiv | |
无需注释的遥感视觉语言基础模型:通过地面遥感对齐 <br>U. Mall, C. P. Phoo, M. K. Liu, C. Vondrick, B. Hariharan, 和 K. Bala.<br> | ICLR | 2024-01-16 | 项目 | arXiv |
JAG | 2023-09-18 | Github | - | |
T-GRS | 2023-08-28 | Github | arXiv |
标题 | 会议/期刊 | 日期 | 代码 | 备注 |
---|---|---|---|---|
arXiv | 2024-06-13 | Github | arXiv | |
遥感中的视觉语言模型:当前进展和未来趋势 <br>X. Li, C. Wen, Y. Hu, Z. Yuan, 和 X. X. Zhu.<br> | MGRS | 2024-04-22 | - | - |
遥感中的语言集成:任务、数据集和未来方向 <br>L. Bashmal, Y. Bazi, F. Melgani, M. M. Al Rahhal, 和 M. A. Al Zuair.<br> | MGRS | 2023-10-11 | - | - |
脑启发遥感基础模型和开放问题:一项全面调查 <br>L. Jiao 等人.<br> | JSTARS | 2023-09-18 | - | - |
标题 | 会议/期刊 | 日期 | 代码 | 备注 |
---|---|---|---|---|
地球和气候基础模型的基础 <br>X. X. Zhu 等人.<br> | arXiv | 2024-05-07 | Github | - |
多模态基础模型在地理、环境、农业和城市规划应用中的前景与挑战 <br>C. Tan 等人.<br> | arXiv | 2023-12-23 | - | - |
arXiv | 2023-11-24 | Github | - | |
Visual ChatGPT在遥感中的潜力 <br>L. P. Osco, E. L. de Lemos, W. N. Gonçalves, A. P. M. Ramos, 和 J. Marcato Junior.<br> | Remote Sensing | 2023-06-22 | - | - |
标题 | 会议/期刊 | 日期 | 代码 | 备注 |
---|---|---|---|---|
arXiv | 2024-02-17 | Github | 链接 | |
arXiv | 2024-01-02 | Github | - | |
AAAI | 2024-03-24 | Github | arXiv |
如果您对本项目有任何疑问,请随时联系zhanyangnwpu@gmail.com。
一键生成PPT和Word,让学习生活更轻松
讯飞智文是一个利用 AI 技术的项目,能够帮助用户生成 PPT 以及各类文档。无论是商业领域的市场分析报告、年度目标制定,还是学生群体的职业生涯规划、实习避坑指南,亦或是活动策划、旅游攻略等内容,它都能提供支持,帮助用户精准表达,轻松呈现各种信息。
深度推理能力全新升级,全面对标OpenAI o1
科大讯飞的星火大模型,支持语言理解、知识问答和文本创作等多功能,适用于多种文件和业务场景,提升办公和日常生活的效率。讯飞星火是一个提供丰富智能服务的平台,涵盖科技资讯、图像创作、写作辅助、编程解答、科研文献解读等功能,能为不同需求的用户提供便捷高效的帮助,助力用户轻松获取信息、解决问题,满足多样化使用场景。
一种基于大语言模型的高效单流解耦语音令牌文本到语音合成模型
Spark-TTS 是一个基于 PyTorch 的开源文本到语音合成项目,由多个知名机构联合参与。该项目提供了高效的 LLM(大语言模型)驱动的语音合成方案,支持语音克隆和语音创建功能,可通过命令行界面(CLI)和 Web UI 两种方式使用。用户可以根据需求调整语音的性别、音高、速度等参数,生成高质量的语音。该项目适用于多种场景,如有声读物制作、智能语音助手开发等。
字节跳动发布的AI编程神器IDE
Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能,是提升开发效率的理想工具。
AI助力,做PPT更简单!
咔片是一款轻量化在线演示设计工具,借助 AI 技术,实现从内容生成到智能设计的一站式 PPT 制作服务。支持多种文档格式导入生成 PPT,提供海量模板、智能美化、素材替换等功能,适用于销售、教师 、学生等各类人群,能高效制作出高品质 PPT,满足不同场景演示需求。
选题、配图、成文,一站式创作,让内容运营更高效
讯飞绘文,一个AI集成平台,支持写作、选题、配图、排版和发布。高效生成适用于各类媒体的定制内容,加速品牌传播,提升内容营销效果。
专业的AI公文写作平台,公文写作神器
AI 材料星,专业的 AI 公文写作辅助平台,为体制内工作人员提供高效的公文写作解决方案。拥有海量公文文库、9 大核心 AI 功能,支持 30 + 文稿类型生成,助力快速完成领导讲话、工作总结、述职报告等材料,提升办公效率,是体制打工人的得力写作神器。
OpenAI Agents SDK,助力开发者便捷使用 OpenAI 相关功能。
openai-agents-python 是 OpenAI 推出的一款强大 Python SDK,它为开发者提供了与 OpenAI 模型交互的高效工具,支持工具调用、结果处理、追踪等功能,涵盖多种应用场景,如研究助手、财务研究等,能显著提升开发效率,让开发者更轻松地利用 OpenAI 的技术优势。
高分辨率纹理 3D 资产生成
Hunyuan3D-2 是腾讯开发的用于 3D 资产生成的强大工具,支持从文本描述、单张图片或多视角图片生成 3D 模型,具备快速形状生成能力,可生成带纹理的高质量 3D 模型,适用于多个领域,为 3D 创作提供了高效解决方案。
一个具备存储、管理和客户端操作等多种功能的分布式文件系统相关项目。
3FS 是一个功能强大的分布式文件系统项目,涵盖了存储引擎、元数据管理、客户端工具等多个模块。它支持多种文件操作,如创建文件和目录、设置布局等,同时具备高效的事件循环、节点选择和协程池管理等特性。适用于需要大规模数据存储和管理的场景,能够提高系统的性能和可靠性,是分布式存储领域的优质解决方案。
最新AI工具、AI资讯
独家AI资源、AI项目落地
微信扫一扫关注公众号