byt5-geotagging

byt5-geotagging

ByT5编码器驱动的开源地理标记模型框架

byt5-geotagging是一个开源的地理标记模型框架,基于ByT5编码器架构。该项目提供了自定义训练支持和多种地理位置检测场景的数据集。模型在最相关10%文本上实现30公里中位误差的精度。框架集成了置信度估计功能,用于评估预测坐标的可靠性。该项目代码易于探索和适配,方便开发者集成到各类应用中。

地理标记模型ByT5编码器数据集定位预测开源项目Github
加入我们的社区<a href="https://discord.gg/msWFtcfmwe"><img src="https://yellow-cdn.veclightyear.com/0a4dffa0/d5d8f569-283b-46e7-a3b2-063e28de8469.svg?style=for-the-badge&logo=discord&logoColor=white"></img></a>

封面

<p align="center"> <a href="https://github.blog/2023-07-13-release-radar-spring-23/#yachay-ai-1-0"><img src="https://yellow-cdn.veclightyear.com/0a4dffa0/585f926e-2419-43c1-ac85-86de9ababf7e.svg?v=103"></img></a> <a href="https://huggingface.co/yachay"><img src="https://img.shields.io/badge/%F0%9F%A4%97%20Hugging%20Face-datasets-FCE205"></a> <a href="https://python.org"><img src="https://yellow-cdn.veclightyear.com/0a4dffa0/00c24296-6fb1-4df9-b9ce-20a879cab8e8.svg?style=flat&logo=python&logoColor=white"></img></a> <a href="https://pytorch.org"><img src="https://yellow-cdn.veclightyear.com/0a4dffa0/bec9dceb-bd0b-4bb5-86c4-e5ebff2c70c0.svg?style=flat&logo=pytorch"></img></a> <a href="https://github.com/Yachay-AI/byt5-geotagging/releases"><img alt="Version" src="https://img.shields.io/github/v/release/Yachay-AI/byt5-geotagging?include_prereleases"></a> <a href="https://github.com/Yachay-AI/byt5-geotagging/blob/master/LICENSE.md"><img src="https://badgen.net/github/license/Yachay-AI/byt5-geotagging"></img></a> </p>

地理标记模型

该存储库旨在支持开发者构建和训练他们自己的地理标记模型。这里提供的地理标记模型架构允许进行定制和训练。此外,我们还发布了适用于不同地理位置检测场景训练的数据集。

当前模型在最相关的10%文本上达到30公里的哈弗辛距离中位数误差。存储库的问题部分开放了改进模型性能的挑战。

架构和训练

<details> <summary>点击展开地理标记模型架构图。</summary>
%%{init:{'theme':'neutral'}}%% flowchart TD subgraph "ByT5分类器" a("输入文本") --> b("输入ID") subgraph "byt5(T5编码器模型)" b("输入ID") --> c("byt5.encoder.inp_input_ids") subgraph "byt5.encoder(T5堆栈)" c("byt5.encoder.inp_input_ids") --> d("byt5.encoder.embed_tokens") subgraph "byt5.encoder.embed_tokens (嵌入)" d("byt5.encoder.embed_tokens") --> f("嵌入") e("byt5.encoder.embed_tokens.inp_weights") --> f("嵌入") --> g("byt5.encoder.embed_tokens.out_0") end g("byt5.encoder.embed_tokens.out_0") --> h("byt5.encoder.dropout(丢弃)") --> i("byt5.encoder.block.0(T5块)") --> j("byt5.encoder.block.1(T5块)") & k("byt5.encoder.block.2-9(T5块)") & l("byt5.encoder.block.10(T5块)") j("byt5.encoder.block.1(T5块)") --> k("byt5.encoder.block.2(T5块)<br><br> ...<br><br>byt5.encoder.block.10(T5块) ") --> l("byt5.encoder.block.11(T5块)") --> m("byt5.encoder.final_layer_norm(T5层归一化)") m("byt5.encoder.final_layer_norm(T5层归一化)")-->n("byt5.encoder.dropout(丢弃)")--> o("byt5.encoder.out_0") end o("byt5.encoder.out_0") --> p("byt5.out_0") end p("byt5.out_0")-->q("(线性)") end q("(线性)") -->r("logits")
</details>
训练你的文本到位置模型在Colab中打开

依赖项

确保在你的环境中安装以下依赖项以构建和训练你的地理标记模型:

transformers==4.29.1
tqdm==4.63.2
pandas==1.4.4
pytorch==1.7.1

要使用基于ByT5编码器的方法训练你的地理标记模型,执行以下脚本:

python train_model.py --train_input_file <训练文件> --test_input_file <测试文件> --do_train true --do_test true --load_clustering .

查看train_model.py文件以获取可用参数的完整列表。

输出示例

{ "text":"这些小猫需要家,位于奥马哈地区!它们已经接种疫苗并绝育/节育。它们需要在1月1日之前离开!请转发以帮助传播消息!", "geotagging":{ "lat":41.257160, "lon":-95.995102, "confidence":0.9950085878372192 } }
{ "type": "FeatureCollection", "features": [ { "type": "Feature", "id": 1, "properties": { "ID": 0 }, "geometry": { "type": "Polygon", "coordinates": [ [ [-96.296363, 41.112793], [-96.296363, 41.345177], [-95.786877, 41.345177], [-95.786877, 41.112793], [-96.296363, 41.112793] ] ] } }, { "type": "Feature", "id": 2, "properties": { "ID": 0 }, "geometry": { "type": "Point", "coordinates": [-95.995102, 41.257160] } } ] }

数据集

我们的团队为两种不同的训练方法策划了两个全面的数据集。这些数据集旨在用于训练和验证模型。在存储库的问题部分分享你的训练结果

地区数据集谷歌云盘

地区方法的目标是研究世界上人口最多的地区的数据集。

  • 是一个包含50万条文本及其相应地理坐标的标注语料库
  • 覆盖123个地区
  • 每个地点包含5000条推文
季节数据集谷歌云盘

季节方法的目标是识别帖子的时间/日期、内容和位置之间的相关性。应分析并利用时区差异以及事件的季节性来预测位置。例如:雪更可能出现在北半球,尤其是在12月。摇滚音乐会更可能在晚上和大城市举行,因此应使用关于音乐会的帖子时间来确定作者的时区并缩小潜在位置的范围。

  • 是一个包含超过60万条文本的.json文件
  • 收集时间跨度为12个月
  • 覆盖15个不同时区
  • 聚焦于6个国家(古巴、伊朗、俄罗斯、朝鲜、叙利亚、委内瑞拉)

您的自定义数据。 地理标记模型支持在自定义数据集上进行训练和测试。请准备CSV格式的数据,包含以下列:textlatlon

置信度和预测

地理标记模型融入了置信度估计,以评估预测坐标的可靠性。输出中的相关性字段表示预测置信度,范围从0.01.0。数值越高表示置信度越高。 有关置信度估计和如何使用模型进行地理标记预测的详细信息,请参阅inference.py文件。该文件提供了一个示例脚本,演示了模型架构和置信度估计的集成。

欢迎!

Fork用户

Yachay-AI/byt5-geotagging的Fork用户名册

请随意探索代码,根据您的具体需求进行调整,并将其集成到您的项目中。如果您有任何问题或需要帮助,请随时联系我们。我们非常感谢您的反馈,并致力于不断改进地理标记模型。

<p align="center"> <a href="https://www.reddit.com/user/yachay_ai/"><img src="https://yellow-cdn.veclightyear.com/0a4dffa0/10df9168-c7f2-4dde-b4ad-e31535aeae97.svg?style=for-the-badge&logo=Reddit&logoColor=white"></img></a> <a href="https://twitter.com/YachayAi"><img src="https://yellow-cdn.veclightyear.com/0a4dffa0/58aee71b-619e-469f-ae1e-05742643a40a.svg?style=for-the-badge&logo=Twitter&logoColor=white"></img></a> <a href="https://yachay.hashnode.dev/"><img src="https://img.shields.io/badge/Hashnode-2962FF?style=for-the-badge&logo=hashnode&logoColor=white"></img></a> <a href="https://dev.to/yachayai"><img src="https://img.shields.io/badge/dev.to-0A0A0A?style=for-the-badge&logo=dev.to&logoColor=white"></img></a> </p>

编辑推荐精选

Refly.AI

Refly.AI

最适合小白的AI自动化工作流平台

无需编码,轻松生成可复用、可变现的AI自动化工作流

酷表ChatExcel

酷表ChatExcel

大模型驱动的Excel数据处理工具

基于大模型交互的表格处理系统,允许用户通过对话方式完成数据整理和可视化分析。系统采用机器学习算法解析用户指令,自动执行排序、公式计算和数据透视等操作,支持多种文件格式导入导出。数据处理响应速度保持在0.8秒以内,支持超过100万行数据的即时分析。

AI工具酷表ChatExcelAI智能客服AI营销产品使用教程
TRAE编程

TRAE编程

AI辅助编程,代码自动修复

Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能,是提升开发效率的理想工具。

AI工具TraeAI IDE协作生产力转型热门
AIWritePaper论文写作

AIWritePaper论文写作

AI论文写作指导平台

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

AI辅助写作AI工具AI论文工具论文写作智能生成大纲数据安全AI助手热门
博思AIPPT

博思AIPPT

AI一键生成PPT,就用博思AIPPT!

博思AIPPT,新一代的AI生成PPT平台,支持智能生成PPT、AI美化PPT、文本&链接生成PPT、导入Word/PDF/Markdown文档生成PPT等,内置海量精美PPT模板,涵盖商务、教育、科技等不同风格,同时针对每个页面提供多种版式,一键自适应切换,完美适配各种办公场景。

AI办公办公工具AI工具博思AIPPTAI生成PPT智能排版海量精品模板AI创作热门
潮际好麦

潮际好麦

AI赋能电商视觉革命,一站式智能商拍平台

潮际好麦深耕服装行业,是国内AI试衣效果最好的软件。使用先进AIGC能力为电商卖家批量提供优质的、低成本的商拍图。合作品牌有Shein、Lazada、安踏、百丽等65个国内外头部品牌,以及国内10万+淘宝、天猫、京东等主流平台的品牌商家,为卖家节省将近85%的出图成本,提升约3倍出图效率,让品牌能够快速上架。

iTerms

iTerms

企业专属的AI法律顾问

iTerms是法大大集团旗下法律子品牌,基于最先进的大语言模型(LLM)、专业的法律知识库和强大的智能体架构,帮助企业扫清合规障碍,筑牢风控防线,成为您企业专属的AI法律顾问。

SimilarWeb流量提升

SimilarWeb流量提升

稳定高效的流量提升解决方案,助力品牌曝光

稳定高效的流量提升解决方案,助力品牌曝光

Sora2视频免费生成

Sora2视频免费生成

最新版Sora2模型免费使用,一键生成无水印视频

最新版Sora2模型免费使用,一键生成无水印视频

Transly

Transly

实时语音翻译/同声传译工具

Transly是一个多场景的AI大语言模型驱动的同声传译、专业翻译助手,它拥有超精准的音频识别翻译能力,几乎零延迟的使用体验和支持多国语言可以让你带它走遍全球,无论你是留学生、商务人士、韩剧美剧爱好者,还是出国游玩、多国会议、跨国追星等等,都可以满足你所有需要同传的场景需求,线上线下通用,扫除语言障碍,让全世界的语言交流不再有国界。

下拉加载更多