byt5-geotagging

byt5-geotagging

ByT5编码器驱动的开源地理标记模型框架

byt5-geotagging是一个开源的地理标记模型框架,基于ByT5编码器架构。该项目提供了自定义训练支持和多种地理位置检测场景的数据集。模型在最相关10%文本上实现30公里中位误差的精度。框架集成了置信度估计功能,用于评估预测坐标的可靠性。该项目代码易于探索和适配,方便开发者集成到各类应用中。

地理标记模型ByT5编码器数据集定位预测开源项目Github
加入我们的社区<a href="https://discord.gg/msWFtcfmwe"><img src="https://yellow-cdn.veclightyear.com/0a4dffa0/d5d8f569-283b-46e7-a3b2-063e28de8469.svg?style=for-the-badge&logo=discord&logoColor=white"></img></a>

封面

<p align="center"> <a href="https://github.blog/2023-07-13-release-radar-spring-23/#yachay-ai-1-0"><img src="https://yellow-cdn.veclightyear.com/0a4dffa0/585f926e-2419-43c1-ac85-86de9ababf7e.svg?v=103"></img></a> <a href="https://huggingface.co/yachay"><img src="https://img.shields.io/badge/%F0%9F%A4%97%20Hugging%20Face-datasets-FCE205"></a> <a href="https://python.org"><img src="https://yellow-cdn.veclightyear.com/0a4dffa0/00c24296-6fb1-4df9-b9ce-20a879cab8e8.svg?style=flat&logo=python&logoColor=white"></img></a> <a href="https://pytorch.org"><img src="https://yellow-cdn.veclightyear.com/0a4dffa0/bec9dceb-bd0b-4bb5-86c4-e5ebff2c70c0.svg?style=flat&logo=pytorch"></img></a> <a href="https://github.com/Yachay-AI/byt5-geotagging/releases"><img alt="Version" src="https://img.shields.io/github/v/release/Yachay-AI/byt5-geotagging?include_prereleases"></a> <a href="https://github.com/Yachay-AI/byt5-geotagging/blob/master/LICENSE.md"><img src="https://badgen.net/github/license/Yachay-AI/byt5-geotagging"></img></a> </p>

地理标记模型

该存储库旨在支持开发者构建和训练他们自己的地理标记模型。这里提供的地理标记模型架构允许进行定制和训练。此外,我们还发布了适用于不同地理位置检测场景训练的数据集。

当前模型在最相关的10%文本上达到30公里的哈弗辛距离中位数误差。存储库的问题部分开放了改进模型性能的挑战。

架构和训练

<details> <summary>点击展开地理标记模型架构图。</summary>
%%{init:{'theme':'neutral'}}%% flowchart TD subgraph "ByT5分类器" a("输入文本") --> b("输入ID") subgraph "byt5(T5编码器模型)" b("输入ID") --> c("byt5.encoder.inp_input_ids") subgraph "byt5.encoder(T5堆栈)" c("byt5.encoder.inp_input_ids") --> d("byt5.encoder.embed_tokens") subgraph "byt5.encoder.embed_tokens (嵌入)" d("byt5.encoder.embed_tokens") --> f("嵌入") e("byt5.encoder.embed_tokens.inp_weights") --> f("嵌入") --> g("byt5.encoder.embed_tokens.out_0") end g("byt5.encoder.embed_tokens.out_0") --> h("byt5.encoder.dropout(丢弃)") --> i("byt5.encoder.block.0(T5块)") --> j("byt5.encoder.block.1(T5块)") & k("byt5.encoder.block.2-9(T5块)") & l("byt5.encoder.block.10(T5块)") j("byt5.encoder.block.1(T5块)") --> k("byt5.encoder.block.2(T5块)<br><br> ...<br><br>byt5.encoder.block.10(T5块) ") --> l("byt5.encoder.block.11(T5块)") --> m("byt5.encoder.final_layer_norm(T5层归一化)") m("byt5.encoder.final_layer_norm(T5层归一化)")-->n("byt5.encoder.dropout(丢弃)")--> o("byt5.encoder.out_0") end o("byt5.encoder.out_0") --> p("byt5.out_0") end p("byt5.out_0")-->q("(线性)") end q("(线性)") -->r("logits")
</details>
训练你的文本到位置模型在Colab中打开

依赖项

确保在你的环境中安装以下依赖项以构建和训练你的地理标记模型:

transformers==4.29.1
tqdm==4.63.2
pandas==1.4.4
pytorch==1.7.1

要使用基于ByT5编码器的方法训练你的地理标记模型,执行以下脚本:

python train_model.py --train_input_file <训练文件> --test_input_file <测试文件> --do_train true --do_test true --load_clustering .

查看train_model.py文件以获取可用参数的完整列表。

输出示例

{ "text":"这些小猫需要家,位于奥马哈地区!它们已经接种疫苗并绝育/节育。它们需要在1月1日之前离开!请转发以帮助传播消息!", "geotagging":{ "lat":41.257160, "lon":-95.995102, "confidence":0.9950085878372192 } }
{ "type": "FeatureCollection", "features": [ { "type": "Feature", "id": 1, "properties": { "ID": 0 }, "geometry": { "type": "Polygon", "coordinates": [ [ [-96.296363, 41.112793], [-96.296363, 41.345177], [-95.786877, 41.345177], [-95.786877, 41.112793], [-96.296363, 41.112793] ] ] } }, { "type": "Feature", "id": 2, "properties": { "ID": 0 }, "geometry": { "type": "Point", "coordinates": [-95.995102, 41.257160] } } ] }

数据集

我们的团队为两种不同的训练方法策划了两个全面的数据集。这些数据集旨在用于训练和验证模型。在存储库的问题部分分享你的训练结果

地区数据集谷歌云盘

地区方法的目标是研究世界上人口最多的地区的数据集。

  • 是一个包含50万条文本及其相应地理坐标的标注语料库
  • 覆盖123个地区
  • 每个地点包含5000条推文
季节数据集谷歌云盘

季节方法的目标是识别帖子的时间/日期、内容和位置之间的相关性。应分析并利用时区差异以及事件的季节性来预测位置。例如:雪更可能出现在北半球,尤其是在12月。摇滚音乐会更可能在晚上和大城市举行,因此应使用关于音乐会的帖子时间来确定作者的时区并缩小潜在位置的范围。

  • 是一个包含超过60万条文本的.json文件
  • 收集时间跨度为12个月
  • 覆盖15个不同时区
  • 聚焦于6个国家(古巴、伊朗、俄罗斯、朝鲜、叙利亚、委内瑞拉)

您的自定义数据。 地理标记模型支持在自定义数据集上进行训练和测试。请准备CSV格式的数据,包含以下列:textlatlon

置信度和预测

地理标记模型融入了置信度估计,以评估预测坐标的可靠性。输出中的相关性字段表示预测置信度,范围从0.01.0。数值越高表示置信度越高。 有关置信度估计和如何使用模型进行地理标记预测的详细信息,请参阅inference.py文件。该文件提供了一个示例脚本,演示了模型架构和置信度估计的集成。

欢迎!

Fork用户

Yachay-AI/byt5-geotagging的Fork用户名册

请随意探索代码,根据您的具体需求进行调整,并将其集成到您的项目中。如果您有任何问题或需要帮助,请随时联系我们。我们非常感谢您的反馈,并致力于不断改进地理标记模型。

<p align="center"> <a href="https://www.reddit.com/user/yachay_ai/"><img src="https://yellow-cdn.veclightyear.com/0a4dffa0/10df9168-c7f2-4dde-b4ad-e31535aeae97.svg?style=for-the-badge&logo=Reddit&logoColor=white"></img></a> <a href="https://twitter.com/YachayAi"><img src="https://yellow-cdn.veclightyear.com/0a4dffa0/58aee71b-619e-469f-ae1e-05742643a40a.svg?style=for-the-badge&logo=Twitter&logoColor=white"></img></a> <a href="https://yachay.hashnode.dev/"><img src="https://img.shields.io/badge/Hashnode-2962FF?style=for-the-badge&logo=hashnode&logoColor=white"></img></a> <a href="https://dev.to/yachayai"><img src="https://img.shields.io/badge/dev.to-0A0A0A?style=for-the-badge&logo=dev.to&logoColor=white"></img></a> </p>

编辑推荐精选

讯飞智文

讯飞智文

一键生成PPT和Word,让学习生活更轻松

讯飞智文是一个利用 AI 技术的项目,能够帮助用户生成 PPT 以及各类文档。无论是商业领域的市场分析报告、年度目标制定,还是学生群体的职业生涯规划、实习避坑指南,亦或是活动策划、旅游攻略等内容,它都能提供支持,帮助用户精准表达,轻松呈现各种信息。

AI办公办公工具AI工具讯飞智文AI在线生成PPTAI撰写助手多语种文档生成AI自动配图热门
讯飞星火

讯飞星火

深度推理能力全新升级,全面对标OpenAI o1

科大讯飞的星火大模型,支持语言理解、知识问答和文本创作等多功能,适用于多种文件和业务场景,提升办公和日常生活的效率。讯飞星火是一个提供丰富智能服务的平台,涵盖科技资讯、图像创作、写作辅助、编程解答、科研文献解读等功能,能为不同需求的用户提供便捷高效的帮助,助力用户轻松获取信息、解决问题,满足多样化使用场景。

热门AI开发模型训练AI工具讯飞星火大模型智能问答内容创作多语种支持智慧生活
Spark-TTS

Spark-TTS

一种基于大语言模型的高效单流解耦语音令牌文本到语音合成模型

Spark-TTS 是一个基于 PyTorch 的开源文本到语音合成项目,由多个知名机构联合参与。该项目提供了高效的 LLM(大语言模型)驱动的语音合成方案,支持语音克隆和语音创建功能,可通过命令行界面(CLI)和 Web UI 两种方式使用。用户可以根据需求调整语音的性别、音高、速度等参数,生成高质量的语音。该项目适用于多种场景,如有声读物制作、智能语音助手开发等。

Trae

Trae

字节跳动发布的AI编程神器IDE

Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能,是提升开发效率的理想工具。

AI工具TraeAI IDE协作生产力转型热门
咔片PPT

咔片PPT

AI助力,做PPT更简单!

咔片是一款轻量化在线演示设计工具,借助 AI 技术,实现从内容生成到智能设计的一站式 PPT 制作服务。支持多种文档格式导入生成 PPT,提供海量模板、智能美化、素材替换等功能,适用于销售、教师、学生等各类人群,能高效制作出高品质 PPT,满足不同场景演示需求。

讯飞绘文

讯飞绘文

选题、配图、成文,一站式创作,让内容运营更高效

讯飞绘文,一个AI集成平台,支持写作、选题、配图、排版和发布。高效生成适用于各类媒体的定制内容,加速品牌传播,提升内容营销效果。

热门AI辅助写作AI工具讯飞绘文内容运营AI创作个性化文章多平台分发AI助手
材料星

材料星

专业的AI公文写作平台,公文写作神器

AI 材料星,专业的 AI 公文写作辅助平台,为体制内工作人员提供高效的公文写作解决方案。拥有海量公文文库、9 大核心 AI 功能,支持 30 + 文稿类型生成,助力快速完成领导讲话、工作总结、述职报告等材料,提升办公效率,是体制打工人的得力写作神器。

openai-agents-python

openai-agents-python

OpenAI Agents SDK,助力开发者便捷使用 OpenAI 相关功能。

openai-agents-python 是 OpenAI 推出的一款强大 Python SDK,它为开发者提供了与 OpenAI 模型交互的高效工具,支持工具调用、结果处理、追踪等功能,涵盖多种应用场景,如研究助手、财务研究等,能显著提升开发效率,让开发者更轻松地利用 OpenAI 的技术优势。

Hunyuan3D-2

Hunyuan3D-2

高分辨率纹理 3D 资产生成

Hunyuan3D-2 是腾讯开发的用于 3D 资产生成的强大工具,支持从文本描述、单张图片或多视角图片生成 3D 模型,具备快速形状生成能力,可生成带纹理的高质量 3D 模型,适用于多个领域,为 3D 创作提供了高效解决方案。

3FS

3FS

一个具备存储、管理和客户端操作等多种功能的分布式文件系统相关项目。

3FS 是一个功能强大的分布式文件系统项目,涵盖了存储引擎、元数据管理、客户端工具等多个模块。它支持多种文件操作,如创建文件和目录、设置布局等,同时具备高效的事件循环、节点选择和协程池管理等特性。适用于需要大规模数据存储和管理的场景,能够提高系统的性能和可靠性,是分布式存储领域的优质解决方案。

下拉加载更多