pecab

pecab

纯Python实现的高效韩语形态素分析工具

Pecab是一个基于Mecab的纯Python韩语形态素分析工具,保留了Mecab的高速和准确性,同时简化了安装流程。该工具提供形态素分割、词性标注和名词提取等功能,并采用零拷贝内存映射和双数组字典树技术,显著提升了加载速度并降低了内存占用。Pecab为韩语自然语言处理提供了一个高效且易于使用的解决方案。

Pecab形态素分析自然语言处理Python库韩语分析Github开源项目

Pecab

<a href="https://github.com/hyunwoongko/pecab/releases"><img alt="GitHub 发布" src="https://yellow-cdn.veclightyear.com/835a84d5/b07b6fc2-e4d5-427a-86c7-4152351551bc.svg" /></a> <a href="https://github.com/hyunwoongko/pecab/issues"><img alt="问题" src="https://img.shields.io/github/issues/hyunwoongko/pecab"/></a> Windows 操作状态 Ubuntu 操作状态 macOS 操作状态

Pecab 是一个基于 Mecab 的纯 Python 韩语形态素分析器。 Mecab 是 Taku Kudo 在 2011 年开发的基于 CRF 的形态素分析器。它既快速又准确,这就是为什么尽管它相当老旧,但仍然非常受欢迎的原因。 然而,它被认为是安装最棘手的库之一,事实上许多人在安装 Mecab 时都遇到了困难。

因此,从几年前开始,我就想制作一个纯 Python 版本的 Mecab,既易于安装又能继承 Mecab 的优点。 现在,Pecab 问世了。它确保了与 Mecab 非常相似的结果,同时易于安装。 更多详情,请参考以下内容。

安装

pip install pecab

使用方法

Pecab 的用户 API 受到 KoNLPy 的启发, KoNLPy 是韩国最著名的自然语言处理包之一。

1) PeCab(): 创建 Pecab 对象。

from pecab import PeCab pecab = PeCab()

2) morphs(text): 将文本分割为形态素。

pecab.morphs("아버지가방에들어가시다") ['아버지', '가', '방', '에', '들어가', '시', '다']

3) pos(text): 返回形态素及其词性标签。

pecab.pos("이것은 문장입니다.") [('이것', 'NP'), ('은', 'JX'), ('문장', 'NNG'), ('입니다', 'VCP+EF'), ('.', 'SF')]

4) nouns(text): 返回输入文本中的所有名词。

pecab.nouns("자장면을 먹을까? 짬뽕을 먹을까? 그것이 고민이로다.") ["자장면", "짬뽕", "그것", "고민"]

5) Pecab(user_dict=List[str]): 应用用户词典。

注意,用户词典中包含的词不能包含空格

  • 不使用 user_dict
from pecab import PeCab pecab = PeCab() pecab.pos("저는 삼성디지털프라자에서 지펠냉장고를 샀어요.") [('저', 'NP'), ('는', 'JX'), ('삼성', 'NNP'), ('디지털', 'NNP'), ('프라자', 'NNP'), ('에서', 'JKB'), ('지', 'NNP'), ('펠', 'NNP'), ('냉장고', 'NNG'), ('를', 'JKO'), ('샀', 'VV+EP'), ('어요', 'EF'), ('.', 'SF')]
  • 使用 user_dict
from pecab import PeCab user_dict = ["삼성디지털프라자", "지펠냉장고"] pecab = PeCab(user_dict=user_dict) pecab.pos("저는 삼성디지털프라자에서 지펠냉장고를 샀어요.") [('저', 'NP'), ('는', 'JX'), ('삼성디지털프라자', 'NNG'), ('에서', 'JKB'), ('지펠냉장고', 'NNG'), ('를', 'JKO'), ('샀', 'VV+EP'), ('어요', 'EF'), ('.', 'SF')]

6) PeCab(split_compound=bool): 将复合词分解为更小的单位。

from pecab import PeCab pecab = PeCab(split_compound=True) pecab.morphs("가벼운 냉장고를 샀어요.") ['가볍', 'ᆫ', '냉장', '고', '를', '사', 'ㅏㅆ', '어요', '.']

7) ANY_PECAB_FUNCTION(text, drop_space=bool):决定是否返回空格。

这可用于所有的morphsposnouns函数。此参数的默认值为True

from pecab import PeCab pecab = PeCab() pecab.pos("토끼정에서 크림 우동을 시켰어요.") [('토끼', 'NNG'), ('정', 'NNG'), ('에서', 'JKB'), ('크림', 'NNG'), ('우동', 'NNG'), ('을', 'JKO'), ('시켰', 'VV+EP'), ('어요', 'EF'), ('.', 'SF')] pecab.pos("토끼정에서 크림 우동을 시켰어요.", drop_space=False) [('토끼', 'NNG'), ('정', 'NNG'), ('에서', 'JKB'), (' ', 'SP'), ('크림', 'NNG'), (' ', 'SP'), ('우동', 'NNG'), ('을', 'JKO'), (' ', 'SP'), ('시켰', 'VV+EP'), ('어요', 'EF'), ('.', 'SF')]

实现细节

事实上,之前已经有一个纯Python实现的韩语形态素分析器。它的名字是Pynori。 我一直在使用Pynori,非常感谢Pynori的开发者。 然而,Pynori存在一些需要改进的问题。 所以我开始以其代码库为基础制作Pecab,并专注于解决这些问题。

1) 加载速度提高50~100倍,内存使用量更少

当我们创建Pynori对象时,它会从磁盘读取矩阵和词汇文件,并在运行时构建一个Trie树。 然而,这是一个相当重的任务。事实上,当我第一次运行Pynori时,我的电脑几乎冻结了10秒钟。 所以我通过两个关键思想解决了这个问题:1) 零拷贝内存映射2) 双数组Trie系统

第一个关键思想是零拷贝内存映射。 这允许虚拟内存(磁盘)中的数据几乎不需要复制到内存就能直接使用。 事实上,Pynori需要接近5秒的时间将mecab_csv.pkl文件加载到内存中,这带来了很大的负担。 我设计了使用numpy.memmap保存矩阵文件,使用可内存映射的pyarrow.Table保存词汇。

然而,在设计这个过程中遇到了一个问题。 Pynori中使用的Trie数据结构很难以内存映射的形式存储。 实际上,numpy只能很好地支持数组和矩阵,而pyarrow在大多数情况下只支持表格。 因此,我最初想用表格形式代替Trie。 但是,表格索引特定键的时间复杂度是线性的O(n), 所以实际的搜索时间可能会比以前长得多。 因此,第二个关键思想是双数组Trie(DATrie)。 与一般的Trie不同,DATrie只有两个简单的整数数组(base和check),而不是复杂的基于节点的结构, 所有的键都可以通过它们轻松检索。而这两个数组非常容易用内存映射创建! 双数组Trie可以很容易地保存在内存映射文件中,所以这是我最好的选择之一。 我本想用Python实现所有内容以便于安装包,但遗憾的是我找不到纯Python实现的DATrie源代码。 所以我自己制作了纯Python版本,你可以在这里找到实现。

总之,读取这两个文件所需的时间比以前减少了50~100倍, 由于它们实际上不驻留在内存中,内存消耗也显著减少。

2) 用户友好和Pythonic的API

使用Pynori时我遇到的另一个困难是用户API。 它有一个相当类Java的API和表达方式,为了使用它,我必须在创建主对象时传递许多参数。 然而,我希望使它像Mecab一样非常容易使用,并且不需要用户自己解析输出。 所以我思考了API,最终决定采用类似于用户已经熟悉的KoNLPy的API。 我相信这些API更加用户友好,将使库更容易使用。

许可证

Pecab项目在Apache License 2.0条款下授权。

Copyright 2022 Hyunwoong Ko.

Licensed under the Apache License, Version 2.0 (the "License");
you may not use this file except in compliance with the License.
You may obtain a copy of the License at

http://www.apache.org/licenses/LICENSE-2.0

Unless required by applicable law or agreed to in writing, software
distributed under the License is distributed on an "AS IS" BASIS,
WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
See the License for the specific language governing permissions and
limitations under the License.

编辑推荐精选

Vora

Vora

免费创建高清无水印Sora视频

Vora是一个免费创建高清无水印Sora视频的AI工具

Refly.AI

Refly.AI

最适合小白的AI自动化工作流平台

无需编码,轻松生成可复用、可变现的AI自动化工作流

酷表ChatExcel

酷表ChatExcel

大模型驱动的Excel数据处理工具

基于大模型交互的表格处理系统,允许用户通过对话方式完成数据整理和可视化分析。系统采用机器学习算法解析用户指令,自动执行排序、公式计算和数据透视等操作,支持多种文件格式导入导出。数据处理响应速度保持在0.8秒以内,支持超过100万行数据的即时分析。

AI工具酷表ChatExcelAI智能客服AI营销产品使用教程
TRAE编程

TRAE编程

AI辅助编程,代码自动修复

Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能,是提升开发效率的理想工具。

AI工具TraeAI IDE协作生产力转型热门
AIWritePaper论文写作

AIWritePaper论文写作

AI论文写作指导平台

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

AI辅助写作AI工具AI论文工具论文写作智能生成大纲数据安全AI助手热门
博思AIPPT

博思AIPPT

AI一键生成PPT,就用博思AIPPT!

博思AIPPT,新一代的AI生成PPT平台,支持智能生成PPT、AI美化PPT、文本&链接生成PPT、导入Word/PDF/Markdown文档生成PPT等,内置海量精美PPT模板,涵盖商务、教育、科技等不同风格,同时针对每个页面提供多种版式,一键自适应切换,完美适配各种办公场景。

AI办公办公工具AI工具博思AIPPTAI生成PPT智能排版海量精品模板AI创作热门
潮际好麦

潮际好麦

AI赋能电商视觉革命,一站式智能商拍平台

潮际好麦深耕服装行业,是国内AI试衣效果最好的软件。使用先进AIGC能力为电商卖家批量提供优质的、低成本的商拍图。合作品牌有Shein、Lazada、安踏、百丽等65个国内外头部品牌,以及国内10万+淘宝、天猫、京东等主流平台的品牌商家,为卖家节省将近85%的出图成本,提升约3倍出图效率,让品牌能够快速上架。

iTerms

iTerms

企业专属的AI法律顾问

iTerms是法大大集团旗下法律子品牌,基于最先进的大语言模型(LLM)、专业的法律知识库和强大的智能体架构,帮助企业扫清合规障碍,筑牢风控防线,成为您企业专属的AI法律顾问。

SimilarWeb流量提升

SimilarWeb流量提升

稳定高效的流量提升解决方案,助力品牌曝光

稳定高效的流量提升解决方案,助力品牌曝光

Sora2视频免费生成

Sora2视频免费生成

最新版Sora2模型免费使用,一键生成无水印视频

最新版Sora2模型免费使用,一键生成无水印视频

下拉加载更多