BudouX 是一个由机器学习驱动的换行组织工具,其前身是 Budou。相比于 Budou,BudouX 更加独立、小巧并且具备语言中立性,是在网页应用中优化文字排版的出色工具。
除此之外,BudouX 还支持 HTML 输入,这进一步扩大了其应用范围。
预训练模型支持以下语言:
对于使用空格分隔单词的韩语用户,可以通过 CSS 属性 word-break: keep-all 来避免单词在行内断开的情况。因此,BudouX 并未专门研发韩语支持,但若需求增大,团队愿意进行探索。
BudouX 支持多种编程语言,包括:
BudouX 可以通过 pip 安装:
$ pip install budoux
解析句子:可以通过将一个句子传递给解析器来获得短语列表。
例如,解析日语句子:
import budoux parser = budoux.load_default_japanese_parser() print(parser.parse('今日は天気です。')) # 输出: ['今天是', '晴天。']
HTML 不换行标记:将 HTML 字符串转换为包含不换行标记的 HTML。
print(parser.translate_html_string('今日は<b>とても天気</b>です。')) # 输出: <span style="word-break: keep-all; overflow-wrap: anywhere;">今日は<b>\u200bとても\u200b天気</b>です。</span>
在上述示例中,\u200b 表示零宽空格,实际上输出是一个不可见字符。
使用自定义模型:如果用户拥有自定义的模型文件,也可通过以下方式使用:
with open('/path/to/your/model.json') as f: model = json.load(f) parser = budoux.Parser(model)
BudouX 还能在终端使用,通过命令行输入来分割句子。
英语文本中,通常有许多有助于排版的线索,如空格和连字符,这使得文本更易于分行。然而对于某些复杂字符集语言(如日语、中文),这些线索相对缺乏,导致行中的换行可能出现在词语中间,影响可读性。BudouX 的前身 Budou 便是为解决这一长期存在的问题而设计的,但由于依赖于外部分词器,使用上存在一些局限性。
BudouX 则以其独立性和足够小的内存使用率,适合嵌入到客户端代码中,改善了这种情况。
BudouX 使用AdaBoost算法,通过将分词任务视为一个二分类问题来预测字符间的换行点。它考虑了字符的上下文、Unicode 块以及这些特征的组合,以 便做出预测。训练产生的模型以 JSON 文件形式保存,包含特征及其重要性分数的对应关系。BudouX 使用此模型来组织输入句子,将其转换为短语列表。
用户可以通过准备目标语言的训练数据集来构建自定义模型。训练数据集是由短语分隔符 "▁" 分隔的句子组成的文本文件。通过一系列命令行操作,用户可以生成并训练属于自己的模型。
BudouX 由 Shuhei Iitsuka 开发,感谢他的贡献。需要注意的是,这并不是一个官方支持的谷歌产品。


免费创建高清无水印Sora视频
Vora是一个免费创建高清无水印Sora视频的AI工具


最适合小白的AI自动化工作流平台
无需编码,轻松生成可复用、可变现的AI自动化工作流

大模型驱动的Excel数据处理工具
基于大模型交互的表格处理系统,允许用户通过对话方式完成数据整理和可视化分析。系统采用机器学习算法解析用户指令,自动执行排序、公式计算和数据透视等操作,支持多种文件格式导入导出。数据处理响应速度保持在0.8秒以内,支持超过100万行数据的即时分析。


AI辅助编程,代码自动修复
Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能,是提升开发效率的理想工具。


AI论文写作指导平台
AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。


AI一键生成PPT,就用博思AIPPT!
博思AIPPT,新一代的AI生成PPT平台,支持智能生成PPT、AI美化PPT、文本&链接生成PPT、导入Word/PDF/Markdown文档生成PPT等,内置海量精美PPT模板,涵盖商务、教育、科技等不同风格,同时针对每个页面提供多种版式,一键自适应切换,完美适配各种办公场景。