plainrussian

plainrussian

俄语文本可读性分析与评估系统

plainrussian是一个针对俄语文本可读性分析的开源项目。该系统整合了5种经典可读性算法,并针对俄语特点进行了优化。通过API接口,用户可获取文本或网页的多项可读性指标和详细统计数据。项目还包含标注年龄的文本语料库,为开发新算法提供基础。作为全面的俄语文本分析工具,plainrussian可广泛应用于教育、出版等领域。

文本可读性俄语评估算法API教育水平Github开源项目

简明俄语 / Понятный (простой) русский язык.

为什么需要这个

评估文本的可读性对于自动确定俄语文本的复杂度是必要的。

已完成的工作

有5种美国文本可读性评估算法,它们是:

收集了带有阅读水平标记的俄语文本,包括:

  • 课外阅读文本;
  • 专家标记的成人文本;
  • 特别复杂的法律文本;
  • 等等。

所有算法都经过了针对俄语的训练 - 每个公式都根据训练样本进行了特别调整。 对所有公式应用了允许它们适用于俄语文本的系数。

基于这些公式,开发了一个特殊的网络服务,允许传入文本或链接并评估其复杂度。

API如何工作

API可通过http://api.plainrussian.ru/api/1.0/ru/measure/访问, 需要传递url参数(用于链接)或text参数(作为文本)。

url参数通过GET请求传递,示例如下:

简单文本示例:

或者:

结果如下所示:

{ metrics: { wsyllabes: { 1: 94, 2: 116, 3: 140, 4: 87, 5: 139, 6: 45, 7: 18, 8: 4, 15: 1 }, c_share: 32.142857142857146, chars: 6000, avg_slen: 46, spaces: 510, n_syllabes: 2232, n_words: 644, letters: 5170, n_sentences: 14, n_complex_words: 207, n_simple_words: 437, avg_syl: 3.4658385093167703 }, status: 0, indexes: { grade_SMOG: "研究生、第二学位、博士", grade_ari: "研究生、第二学位、博士", index_fk: 33.342906832298134, grade_cl: "研究生、第二学位、博士", grade_fk: "研究生、第二学位、博士", index_cl: 23.062857142857148, grade_dc: "研究生、第二学位、博士", index_dc: 30.300857142857147, index_ari: 32.11796894409938, index_SMOG: 34.046178356649776 } }

此外,可以使用text参数代替url参数,以便在请求中传递文本而不是文本的超链接。建议使用POST请求而不是GET请求,以避免URI大小限制。 以下是使用Python的requests库的示例:

import requests
text = "这里可以是您的文本"
response = requests.post("http://api.plainrussian.ru/api/1.0/ru/measure/", data={"text":text})
response.json()

参数含义:

indexes - 文本可读性指标集:

  • grade_SMOG - 根据SMOG公式理解文本所需的教育水平,用人类语言表述
  • grade_ari - 根据自动可读性指数公式理解文本所需的教育水平,用人类语言表述
  • grade_cl - 根据Coleman-Liau公式理解文本所需的教育水平,用人类语言表述
  • grade_fk - 根据Flesch-Kinkaid公式理解文本所需的教育水平,用人类语言表述
  • grade_dc - 根据Dale-Chale公式理解文本所需的教育水平,用人类语言表述
  • index_SMOG - 根据SMOG公式理解文本所需的教育水平,以1到无穷大的学习年数表示
  • index_ari - 根据自动可读性指数公式理解文本所需的教育水平,以1到无穷大的学习年数表示
  • index_cl - 根据Coleman-Liau公式理解文本所需的教育水平,以1到无穷大的学习年数表示
  • index_fk - 根据Flesch-Kinkaid公式理解文本所需的教育水平,以1到无穷大的学习年数表示
  • index_dc - 根据Dale-Chale公式理解文本所需的教育水平,以1到无穷大的学习年数表示

指标 - 从文本中计算得出的一组指标

  • chars - 文本中的总字符数
  • spaces - 文本中的空格数
  • letters - 文本中的字母数
  • n_words - 单词数
  • n_sentences - 句子数
  • n_complex_words - 超过4个音节的单词数
  • n_simple_words - 4个音节及以下的单词数
  • avg_slen - 每句话的平均单词数
  • avg_syl - 每个单词的平均音节数
  • c_share - 复杂单词占总单词数的百分比
  • w_syllabes - 一个字典,包含音节数和具有该音节数的单词数量

如果传入参数debug=1,还会返回传入的文本值。

以下是一些用于训练的文本示例。

  • textmetric - 用于测量俄语简易程度的代码库

textmetric中的文本文件是经过特别挑选的,带有预先的年龄标记。这使得可以基于这些指标开发自己的可读性、简易性和可理解性分析算法。

textmetric/metrics.csv - 指标列表

  • filename - textsbygrade文件夹中的文件名
  • name - 文本标题
  • grade - 理解文本所需的学习年限,专家评估
  • index_fk_rus - 使用Flesch-Kinkaid公式测量的文本复杂度(以学习年限计)
  • fk_grade_diff - Flesch-Kinkaid公式测量的复杂度与预设专家评估的差异
  • index_cl_rus - 使用Coleman-Liau公式测量的文本复杂度(以学习年限计)
  • cl_grade_diff - Coleman-Liau公式测量的复杂度与预设专家评估的差异
  • index_dc_rus - 使用Dale-Chale公式测量的文本复杂度(以学习年限计)
  • dc_grade_diff - Dale-Chale公式测量的复杂度与预设专家评估的差异
  • index_SMOG_rus - 使用SMOG公式测量的文本复杂度(以学习年限计)
  • SMOG_grade_diff - SMOG公式测量的复杂度与预设专家评估的差异
  • index_ari_rus - 使用Automatic Readability Index公式测量的文本复杂度(以学习年限计)
  • ari_grade_diff - Automatic Readability Index公式测量的复杂度与预设专家评估的差异
  • chars - 文本中的字符数
  • spaces - 空格数
  • letters - 字母数
  • n_syllabes - 总音节数
  • n_words - 总单词数
  • n_complex_words - 复杂单词数
  • n_simple_words - 简单单词数
  • n_sentences - 句子数
  • c_share - 复杂单词占比(百分比)
  • avg_syl - 每个单词的平均音节数
  • avg_slen - 每个句子的平均单词数
  • wsyllabes - 按音节数统计的单词频率字典,格式为{"音节数":"单词数"}

编辑推荐精选

Vora

Vora

免费创建高清无水印Sora视频

Vora是一个免费创建高清无水印Sora视频的AI工具

Refly.AI

Refly.AI

最适合小白的AI自动化工作流平台

无需编码,轻松生成可复用、可变现的AI自动化工作流

酷表ChatExcel

酷表ChatExcel

大模型驱动的Excel数据处理工具

基于大模型交互的表格处理系统,允许用户通过对话方式完成数据整理和可视化分析。系统采用机器学习算法解析用户指令,自动执行排序、公式计算和数据透视等操作,支持多种文件格式导入导出。数据处理响应速度保持在0.8秒以内,支持超过100万行数据的即时分析。

AI工具酷表ChatExcelAI智能客服AI营销产品使用教程
TRAE编程

TRAE编程

AI辅助编程,代码自动修复

Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能,是提升开发效率的理想工具。

AI工具TraeAI IDE协作生产力转型热门
AIWritePaper论文写作

AIWritePaper论文写作

AI论文写作指导平台

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

AI辅助写作AI工具AI论文工具论文写作智能生成大纲数据安全AI助手热门
博思AIPPT

博思AIPPT

AI一键生成PPT,就用博思AIPPT!

博思AIPPT,新一代的AI生成PPT平台,支持智能生成PPT、AI美化PPT、文本&链接生成PPT、导入Word/PDF/Markdown文档生成PPT等,内置海量精美PPT模板,涵盖商务、教育、科技等不同风格,同时针对每个页面提供多种版式,一键自适应切换,完美适配各种办公场景。

AI办公办公工具AI工具博思AIPPTAI生成PPT智能排版海量精品模板AI创作热门
潮际好麦

潮际好麦

AI赋能电商视觉革命,一站式智能商拍平台

潮际好麦深耕服装行业,是国内AI试衣效果最好的软件。使用先进AIGC能力为电商卖家批量提供优质的、低成本的商拍图。合作品牌有Shein、Lazada、安踏、百丽等65个国内外头部品牌,以及国内10万+淘宝、天猫、京东等主流平台的品牌商家,为卖家节省将近85%的出图成本,提升约3倍出图效率,让品牌能够快速上架。

iTerms

iTerms

企业专属的AI法律顾问

iTerms是法大大集团旗下法律子品牌,基于最先进的大语言模型(LLM)、专业的法律知识库和强大的智能体架构,帮助企业扫清合规障碍,筑牢风控防线,成为您企业专属的AI法律顾问。

SimilarWeb流量提升

SimilarWeb流量提升

稳定高效的流量提升解决方案,助力品牌曝光

稳定高效的流量提升解决方案,助力品牌曝光

Sora2视频免费生成

Sora2视频免费生成

最新版Sora2模型免费使用,一键生成无水印视频

最新版Sora2模型免费使用,一键生成无水印视频

下拉加载更多