匈牙利NLP资源与工具综合清单
该项目整理了丰富的匈牙利自然语言处理资源,包括开源工具、语言模型和数据集。涵盖分词、形态分析、词性标注等多项NLP任务,并收录预训练词嵌入和Transformer模型。此外还包含语料库、语言学资源等。内容全面,适合研究人员和开发者参考使用。
精心挑选的匈牙利自然语言处理免费资源列表
维护者 - György Orosz
标记说明:
huBERT
在Web语料库2.0和匈牙利维基百科上训练的匈牙利BERT基础模型CoNLL 2017:自动标注的原始文本和词嵌入 使用UDPipe为45种语言的原始文本自动生成分割、分词以及形态和句法标注,同时使用word2vec从小写文本计算100维词嵌入
OpinHuBank OpinHuBank是一个人工标注的语料库,用于辅助匈牙利语的观点挖掘和情感分析研究
HunEmPoli 语料库基于 匈牙利国民议会(2014-2018年)的预议程演讲构建,包含764008个标记/36475个句子。进行了方面级情感标注,识别了39840个情感,并标记了引发情感的关键词。
匈牙利论坛观点挖掘语料库 这是第一个专门用于匈牙利语观点挖掘的数据库。数据来源于匈牙利政府门户网站论坛中关于双重国籍公投的帖子。
匈牙利情感语料库(HuSent) 是一个深度标注的匈牙利语情感语料库。它由发布在[http://divany.hu/]主页上的不同类型产品的匈牙利语评论文本组成
塞格德树库 塞格德树库是最大的完全人工标注的匈牙利语树库
塞格德依存树库 塞格德依存树库是塞格德树库的依存树格式版本
匈牙利命名实体语料库 匈牙利命名实体语料库是塞格德树库的一个子语料库,包含由语言学专家手动完成的完整句法标注。
KorKor试点语料库 是一个包含依存句法分析和共指消解等多层标注的金标准语料库
NerKor 是一个包含100万标记的金标准命名实体标注语料库
NerKor 1.41e 一个包含100万以上标记的匈牙利语命名实体数据集,约有30种实体类型,源自NYTK-NerKor
hunNERwiki 匈牙利命名实体识别的银标准语料库
Mazsola数据库 包含来自MNSZ1语料库的2800万个句子,带有浅层句法分析标注
PrevCons 是一个包含21K个带有动词前缀的动词孤词的数据库
匈牙利词义消歧语料库 包含39个适合词义消歧目的的词形样本
HunLearner 是一个匈牙利语学习者语料库,包含来自克罗地亚萨格勒布大学35名匈牙利语专业学生的书面数据。文本由magyarlanc工具进行了形态和句法分析。
HuLU 匈牙利语言理解基准测试套件
HuRC 匈牙利常识推理阅读理解语料库
ELTE诗歌语料库 是一个包含50位匈牙利经典诗人完整诗作的数据库,包括诗歌的声音装置和词语的语法特征,以XML格式呈现
ELTE小说语料库 是一个包含400部匈牙利小说的数据库(以TEI XML格式标注结构单元和词语的语法特征)
ELTE戏剧语料库 是一个包含58部戏剧的数据库(以TEI XML格式标注结构单元和词语的语法特征)
HumSum-1 是一个包含超过110万条独特新闻文章的数据集,包括导语和其他元数据
Hunglish语料库 Hunglish语料库是一个免费的句子对齐的匈牙利语-英语平行语料库,包含约1.2亿个单词,400万个句子对。
SzegedParallel 这个英语-匈牙利语平行语料库包含根据语法和翻译标准选择的文本。
HunOr 一个匈牙利语-俄语平行语料库,包含约80万个单词。
CoNLL 2017共享任务匈牙利语数据 对Common Crawl的原始文本进行自动分段、标记化以及形态和句法标注。
CSS10 包括匈牙利语在内的10种语言的单一说话人语音数据集合。
TED演讲转录平行语料库 包括匈牙利语的句子对齐TED演讲。
TaPaCo语料库 从Tatoeba数据库中提取的73种语言(包括匈牙利语)的复述语料库。
Duolingo STAPLE 一个包含英语到5种不同语言(包括匈牙利语)的全面接受翻译的数据集。
PPDB 一个自动提取的数据库,包含16种不同语言(包括匈牙利语)的数百万个复述。
OpenSubtitles语料库 包含62种语言(包括匈牙利语)的电影字幕和对齐。
OPUS语料库 一个不断增长的来自网络的翻译文本集合。
MASSIVE数据集 一个跨51种语言的超过100万条话语的平行数据集,带有意图预测和槽位标注的自然语言理解任务注释。
PWS 七种语言(包括匈牙利语)的Winograd模式的平行集合。
morphdb.hu 匈牙利语的开源形态数据库,由基于合理理论决策的词典和形态语法组成。
huwn 匈牙利语词网。
匈牙利语情感词典 这些词典是在Wordnet-Affect词典的基础上手动创建的。
poltextLAB的情感词典 用于分析新闻数据的高精度情感词典。
4lang 使用Eilenberg机器的概念词典。
Mazsola ISZ 列出从Mazsola数据库中提取的50万个动词框架。
Manocska 合并现有数据库中的动词框架。
PrevLex 短语动词列表。
panmorph 匈牙利语形态分析器的标记集和描述。
hun_ner_checklist 匈牙利语命名实体识别的CHECKLIST诊断测试用例。
huwn.rdf 用于链接开放数据云的RDF格式的匈牙利语WordNet。
Conceptnet 一个开放的多语言知识图谱(部分支持匈牙利语)。
Natural-earth-vector (name_hu
从维基数据标签导入)
Who's On First 是一个地名词典(包含匈牙利行政地点)
AI小说写作助手,一站式润色、改写、扩写
蛙蛙写作—国内先进的AI写作平台,涵盖小说、学术、社交媒体等多场景。提供续写、改写、润色等功能,助力创作者高效优化写作流程。界面简洁,功能全面,适合各类写作者提升内容品质和工作效率。
字节跳动发布的AI编程神器IDE
Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能,是提升开发效率的理想工具。
全能AI智能助手,随时解答生活与工作的多样问题
问小白,由元石科技研发的AI智能助手,快速准确地解答各种生活和工作问题,包括但不限于搜索、规划和社交互动,帮助用户在日常生活中提高效率,轻松管理个人事务。
实时语音翻译/同声传译工具
Transly是一个多场景的AI大语言模型驱动的同声传译、专业翻译助手,它拥有超精准的音频识别翻译能力,几乎零延迟的使用体验和支持多国语言可以让你带它走遍全球,无论你是留学生、商务人士、韩剧美剧爱好者,还是出国游玩、多国会议、跨国追星等等,都可以满足你所有需要同传的场景需求,线上线下通用,扫除语言障碍,让全世界的语言交流不再有国界。
一键生成PPT和Word,让学习生活更轻松
讯飞智文是一个利用 AI 技术的项目,能够帮助用户生成 PPT 以及各类文档。无论是商业领域的市场分析报告、年度目标制定,还是学生群体的职业生涯规划、实习避坑指南,亦或是活动策划、旅游攻略等内容,它都能提供支持,帮助用户精准表达,轻松呈现各种信息。
深度推理能力全新升级,全面对标OpenAI o1
科大讯飞的星火大模型,支持语言理解、知识问答和文本创作等多功能,适用于多种文件和业务场景,提升办公和日常生活的效率。讯飞星火是一个提供丰富智能服务的平台,涵盖科技资讯、图像创作、写作辅助、编程解答、科研文献解读等功能,能为不同需求的用户提供便捷高效的帮助,助力用户轻松获取信息、解决问题,满足多样化使用场景。
一种基于大语言模型的高效单流解耦语音令牌文本到语音合成模型
Spark-TTS 是一个基于 PyTorch 的开源文本到语音合成项目,由多个知名机构联合参与。该项目提供了高效的 LLM(大语言模型)驱动的语音合成方案,支持语音克隆和语音创建功能,可通过命令行界面(CLI)和 Web UI 两种方式使用。用户可以根据需求调整语音的性别、音高、速度等参数,生成高质量的语音。该项目适用于多种场景,如有声读物制作、智能语音助手开发等。
AI助力,做PPT更简单!
咔片是一款轻量化在线演示设计工具,借助 AI 技术,实现从内容生成到智能设计的一站式 PPT 制作服务。支持多种文档格式导入生成 PPT,提供海量模板、智能美化、素材替换等功能,适用于销售、教师、学生等各类人群,能高效制作出高品质 PPT,满足不同场景演示需求。
选题、配图、成文,一站式创作,让内容运营更高效
讯飞绘文,一个AI集成平台,支持写作、选题、配图、排版和发布。高效生成适用于各类媒体的定制内容,加速品牌传播,提升内容营销效果。
专业的AI公文写作平台,公文写作神器
AI 材料星,专业的 AI 公文写作辅助平台,为体制内工作人员提供高效的公文写作解决方案。拥有海量公文文库、9 大核心 AI 功能,支持 30 + 文稿类型生成,助力快速完成领导讲话、工作总结、述职报告等材料,提升办公效率,是体制打工人的得力写作神器。
最新AI工具、AI资讯
独家AI资源、AI项目落地
微信扫一扫关注公众号