sage

sage

多语言拼写纠正与文本增强工具包

SAGE是一个开源的多语言拼写纠正和文本增强工具包。该项目提供预训练的Transformer模型用于拼写纠正,支持多种语言。SAGE还包含数据增强算法,可模拟真实拼写错误。此外,SAGE提供评估功能,用于衡量拼写纠正工具的性能。这一工具包为处理拼写问题提供了完整解决方案。

SAGE拼写纠正文本增强多语言评估Github开源项目
<p align="center"> <picture> <source media="(prefers-color-scheme: dark)" srcset="images/sage-white.svg"> <source media="(prefers-color-scheme: light)" srcset="images/sage-black.svg"> <img alt="SAGE" src="https://yellow-cdn.veclightyear.com/835a84d5/3ade4f41-279b-4665-b9b8-906c9621f658.svg" style="max-width: 100%;"> </picture> </p> <p align="center"> <a href="https://opensource.org/licenses/MIT"> <img alt="许可证" src="https://yellow-cdn.veclightyear.com/835a84d5/d77416b5-fcf1-4f18-b634-d72d75d155a4.svg"> </a> <a href="https://github.com/ai-forever/sage/releases"> <img alt="发布" src="https://badgen.net/badge/release/v1.1.0/"> </a> <a href="https://arxiv.org/abs/2308.09435"> <img alt="论文" src="https://img.shields.io/badge/arXiv-2308.09435-red"> </a> <a href='https://sage-documentation-main.readthedocs.io/en/latest/?badge=latest'> <img src='https://readthedocs.org/projects/sage-documentation-main/badge/?version=latest' alt='文档状态' /> </a> </p> <h2 align="center"> <p>多语言拼写纠正、错误生成和评估</p> </h2> <div align="center"> <h4> <a href="#installation">安装</a> | <a href="#spelling-correction">模型</a> | <a href="#evaluation">评估</a> | <a href="#statistic-based-spelling-corruption-sbsc">SBSC</a> | <a href="#augmentex">Augmentex</a> | <a href="#citation">论文</a> </h4> </div>

SAGE(通过增强和生成分布模拟的拼写检查)是处理拼写问题时所需的完整解决方案:

新闻

🔥 [2024-01-18]:我们的论文《通过多领域和多语言自然拼写错误模拟的生成式拼写纠正方法》被EACL 2024会议接受!

💥 [2024-04-11]:SAGE v1.1.0终于发布:关于此次发布详情的综合说明可以在这里找到。

目录

安装

常规安装

git clone https://github.com/ai-forever/sage.git cd sage pip install .

要安装使用ERRANT-based指标时需要的额外要求,请运行

pip install -e ".[errant]"

或者只需

pip install -e .[errant]

可编辑安装

git clone https://github.com/ai-forever/sage.git cd sage pip install -e .

然后按上述方式安装额外要求。

快速演示

让我们生成一些错误文本:

import sage from sage.spelling_corruption import SBSCConfig, SBSCCorruptor from sage.utils import DatasetsAvailable text = "Заметьте, не я это предложил!" # 从一个包含医疗病历错误的数据集实例化SBSC错误生成器 config = SBSCConfig( reference_dataset_name_or_path=DatasetsAvailable.MedSpellchecker.name, reference_dataset_split="test" ) corruptor = SBSCCorruptor.from_config(config) corruptor.corrupt(text, seed=1) # 'Заиетьте, не я эт о пред ложил!'

... 现在使用Augmentex:

import sage from sage.spelling_corruption import WordAugConfig, WordAugCorruptor text = "Заметьте, не я это предложил!" # 使用自定义参数集实例化WordAugCorruptor错误生成器 config = WordAugConfig( min_aug=1, max_aug=5, unit_prob=0.4, ) corruptor = WordAugCorruptor.from_config(config) corruptor.corrupt(text, seed=1) # 'это не предложил! Заметьте, я'

... 或者对英语:

import os from sage.spelling_corruption import SBSCConfig, SBSCCorruptor text = "Screw you guys, I am going home. (c)" # 从JFLEG数据集实例化SBSC错误生成器 config = SBSCConfig( lang="en", reference_dataset_name_or_path=os.path.join("data", "example_data", "jfleg"), ) corruptor = SBSCCorruptor.from_config(config) corruptor.corrupt(text, seed=1) # 'Screw you kuys, I am going home. (c)'

现在我们可以使用我们的模型将初始文本恢复:

from sage.spelling_correction import AvailableCorrectors from sage.spelling_correction import RuM2M100ModelForSpellingCorrection, T5ModelForSpellingCorruption text_ru = "Замтьте не я это предложил" text_en = "Screw you kuys, I am going home. (c)" corrector_fred = T5ModelForSpellingCorruption.from_pretrained(AvailableCorrectors.sage_fredt5_large.value) corrector_m2m = RuM2M100ModelForSpellingCorrection.from_pretrained(AvailableCorrectors.m2m100_1B.value) corrector_en = T5ModelForSpellingCorruption.from_pretrained(AvailableCorrectors.ent5_large.value) print(corrector_fred.correct(text_ru)) # ['Заметьте, не я это предложил.'] print(corrector_m2m.correct(text_ru)) # ['Заметьте не я это предложил'] print(corrector_en.correct(text_en, prefix="grammar: ")) # ['Screw you guys, I am going home. (c)']

在开放的拼写纠正基准测试上评估模型性能:

import os import torch from sage.utils import DatasetsAvailable from sage.spelling_correction import AvailableCorrectors from sage.spelling_correction import T5ModelForSpellingCorruption corrector_fred_95m = T5ModelForSpellingCorruption.from_pretrained(AvailableCorrectors.sage_fredt5_distilled_95m.value) corrector_mt5 = T5ModelForSpellingCorruption.from_pretrained(AvailableCorrectors.sage_mt5_large.value) corrector_fred_95m.model.to(torch.device("cuda:0")) corrector_mt5.model.to(torch.device("cuda:0")) metrics = corrector_fred_95m.evaluate("RUSpellRU", metrics=["errant", "ruspelleval"], batch_size=32) print(metrics) # {'CASE_Precision': 94.41, 'CASE_Recall': 92.55, 'CASE_F1': 93.47, 'SPELL_Precision': 77.52, 'SPELL_Recall': 64.09, 'SPELL_F1': 70.17, 'PUNCT_Precision': 86.77, 'PUNCT_Recall': 80.59, 'PUNCT_F1': 83.56, 'YO_Precision': 46.21, 'YO_Recall': 73.83, 'YO_F1': 56.84, 'Precision': 83.48, 'Recall': 74.75, 'F1': 78.87} metrics = corrector_mt5.evaluate("/content/sage/data/example_data/jfleg", metrics=["ruspelleval"], batch_size=16) print(metrics) # {'Precision': 75.94, 'Recall': 88.15, 'F1': 81.59}

注意:如果你在Colab中运行代码片段,你可能会遇到内存错误,所以要管理评估过程以满足可用设备的限制。作为可行的解决方法,你可以执行

del corrector_fred_95m.model

来释放一些空间。

拼写错误生成

我们实现了两种拼写错误生成方法。基于统计的拼写错误生成(SBSC)旨在模仿人类在犯错时的行为。而Augmentex则依赖于基于规则的启发式方法和常见错误,特别是在使用键盘输入文本时所犯的错误。

🚀 这两种方法都证明了它们对拼写纠正系统的有效性,并取得了显著的性能提升,详细报告见我们的论文

基于统计的拼写错误生成(SBSC)

这种方法在我们的另一篇论文和这个🗣️演讲中有详细描述。

简而言之,SBSC遵循两个简单步骤:

  • 🧠 分析错误,其类型和在源文本中的位置;
  • ✏️ 在新句子中复现源文本中的错误;

🧠 为了分析源句子中的错误,我们需要其相应的纠正,以构建Levenshtein矩阵,从右下角入口开始反向遍历,并确定错误的确切位置和类型。然后我们汇总所有获得的统计数据,并将其归一化为有效的离散分布。

✏️ "复现"步骤更加简单:我们只需从相应的分布中抽样每个句子的错误数量、类型和相对位置,并将它们应用到正确的句子上。

如前所述,你需要一个平行数据集来"拟合"SBSC。我们提供了一组四个包含自然错误的数据集,涵盖了广泛的领域:

  • RUSpellRU: 从LiveJournal收集的文本,手动纠正了拼写错误;
  • MultidomainGold: 来自7个文本来源的示例,包括开放网络、新闻、社交媒体、评论、字幕、政策文件和文学作品;
  • MedSpellChecker: 来自医疗病史的错误文本;
  • GitHubTypoCorpusRu: GitHub提交中的拼写错误和typo;

你可以像这样简单地使用它们:

import sage from sage.spelling_corruption import SBSCConfig, SBSCCorruptor from sage.utils import DatasetsAvailable # 从医疗病史错误数据集实例化SBSC错误生成器 config = SBSCConfig( reference_dataset_name_or_path=DatasetsAvailable.MedSpellchecker.name, reference_dataset_split="test" ) corruptor = SBSCCorruptor.from_config(config)

...或者你可以从本地存储的数据集初始化你的SBSC:

import os from sage.spelling_corruption import SBSCConfig, SBSCCorruptor # 从JFLEG数据集实例化SBSC错误生成器 config = SBSCConfig( lang="en", reference_dataset_name_or_path=os.path.join("data", "example_data", "jfleg"), ) corruptor = SBSCCorruptor.from_config(config)

✅ 要检查SBSC实际上近似原始错误的效果如何,你可以绘制原始和合成生成分布的并排图表:

<p align="center"> <br> <img src="https://yellow-cdn.veclightyear.com/835a84d5/06577ec1-88bc-4666-9683-bb65c99854bc.jpg" width="400" style="float:center; padding-right:60px"/> <img src="https://yellow-cdn.veclightyear.com/835a84d5/4f076740-02a0-4f91-a479-a4c9a5cf7ae3.jpg" width="400" style="float:center; padding-left:60px"/> <br> <p>

要访问这些图表,你可以简单地:

from sage.utils import load_available_dataset_from_hf, draw_and_save_errors_distributions_comparison_charts from sage.spelling_corruption.sbsc.labeler import process_mistypings from sage.spelling_corruption import SBSCCorruptor sources, corrections = load_available_dataset_from_hf("RUSpellRU", for_labeler=True, split="train") ruspellru_stats, ruspellru_confusion_matrix, ruspellru_typos_cnt = process_mistypings(sources, corrections) corruptor = SBSCCorruptor.from_default_config() spoiled_sentences = corruptor.batch_corrupt(corrections) sbsc_stats, sbsc_confusion_matrix, sbsc_typos_cnt = process_mistypings(spoiled_sentences, corrections) draw_and_save_errors_distributions_comparison_charts( actual_typos_cnt = sbsc_typos_cnt, reference_typos_cnt=ruspellru_typos_cnt, actual_stats=sbsc_stats, reference_stats=ruspellru_stats, path_to_save="ruspellru_sbsc.jpg" )

Augmentex

Augmentex引入了基于规则和常见统计(由KartaSlov项目支持)的方法来在文本中插入错误。它再次在论文中有全面描述,也在这个🗣️演讲中有介绍。 🖇️ Augmentex 在文本损坏方面允许你在两个粒度级别上操作,并为特定级别提供了一套特定方法:

  • 词级别
    • 替换 - 用不正确的对应词替换随机单词;
    • 删除 - 删除随机单词;
    • 交换 - 交换两个随机单词;
    • 停用词 - 从停用词列表中添加随机单词;
    • 反转 - 改变随机单词首字母的大小写;
  • 字符级别
    • 移位 - 随机交换字符串中的大小写;
    • 拼写错误 - 用常见的错误对应项替换正确字符;
    • 打字错误 - 将正确字符替换为键盘上误打的字符;
    • 删除 - 删除随机字符;
    • 重复 - 重复随机字符;
    • 交换 - 交换相邻的两个字符;
    • 插入 - 插入随机字符;

要访问 Augmentex,你只需要以下几个操作:

from sage.spelling_corruption import CharAugConfig, CharAugCorruptor config = CharAugConfig( unit_prob=0.3, # 将要进行编辑的字符比例 min_aug=1, # 最小编辑次数 max_aug=5, # 最大编辑次数 mult_num=3 # `重复`编辑 ) corruptor = CharAugCorruptor.from_config(config)

... 或者像这样:

from sage.spelling_corruption import WordAugConfig, WordAugCorruptor config = WordAugConfig( unit_prob=0.4, # 将要进行编辑的字符比例 min_aug=1, # 最小编辑次数 max_aug=5, # 最大编辑次数 ) corruptor = WordAugCorruptor.from_config(config)

Augmentex 是由我们的团队创建的,该项目有自己的仓库,别忘了去看看!

拼写纠正

我们在拼写检查任务上获得最佳性能模型的方法在我们的论文中有详细描述。算法简单,主要包括两个步骤:

  • 在带有人工生成错误的大规模平行语料上预训练模型;
  • 在包含"人为"错误的可用拼写纠正数据集组合上进行微调;

我们使用AugmentexSBSC来生成大规模合成语料库,并增强包含自然错误的数据集。 预训练的纠错器家族现在包含8个模型。

我们有6个用于俄语🇷🇺的🤗Transformer模型:

以及两个用于英语🇬🇧的模型:

俄语模型在俄语维基百科和视频转录的组合上进行了预训练,其中包含由SBSC生成的人工错误,该统计数据来自RUSpellRU的训练集。 英语纠错器在英语维基百科文章和新闻帖子的混合数据上训练,其中包含由SBSC插入的合成错误,该统计数据来自BEA60k的5k子样本。

📚 我们还在可用的"人为"错误数据集上验证我们的解决方案:

  • RUSpellRU:从LiveJournal收集的文本,手动纠正了拼写错误;
  • MultidomainGold:来自7个文本来源的示例,包括开放网络、新闻、社交媒体、评论、字幕、政策文件和文学作品;
  • MedSpellChecker:医疗病历中的错误文本;
  • GitHubTypoCorpusRu:GitHub提交中的拼写错误和typo;
  • BEA60K:从多个领域收集的英语拼写错误;
  • JFLEG:1601个英语句子,包含约2000个拼写错误;

📈 这里我们报告了一些设置的评估结果:

  • 预训练检查点的零样本评估;
  • 在目标数据集上进行额外的微调(ft.);

完整的设置列表和相应的性能在论文中。

RUSpellRUMultidomainGoldMedSpellCheckerGitHubTypoCorpusRu来自spellcheck_punctuation_benchmark。 该基准测试同时考虑了标点符号和拼写错误。为了简单和更好的代表性,我们只报告那些处理两种类型错误的模型(俄语)的结果 (sage-fredt5-largesage-fredt5-distilled-95m)。 其他检查点的详细指标可以在论文博文或相应的模型卡片中找到。

注意: MedSpellCheckerGitHubTypoCorpusRu没有训练集,所以它们在预训练 + 微调设置下的性能报告是在RUSpellRUMultidomainGold数据集组合上微调的结果。

RUSpellRU 评估

模型精确率 (拼写)召回率 (拼写)F1 (拼写)精确率 (标点)召回率 (标点)F1 (标点)精确率 (大小写)召回率 (大小写)F1 (大小写)
sage-ai-service90.386.388.290.386.688.495.295.995.6
sage-fredt5-large57.368.062.286.746.160.292.167.878.1
sage-fredt5-large (ft.)88.480.984.588.285.386.895.594.094.7
sage-fredt5-distilled-95m (ft.)83.574.878.986.880.683.694.492.593.5
gpt-3.5-turbo33.658.542.785.964.673.784.973.979.0
gpt-454.976.764.084.082.383.291.590.290.9

MultidomainGold 评估

模型准确率 (拼写)召回率 (拼写)F1值 (拼写)准确率 (标点)召回率 (标点)F1值 (标点)准确率 (大小写)召回率 (大小写)F1值 (大小写)
sage-ai-service81.677.779.670.267.568.880.580.580.5
sage-fredt5-large43.449.746.321.821.321.658.823.934.0
sage-fredt5-large (微调)80.375.177.669.066.567.778.680.079.3
sage-fredt5-distilled-95m (微调)77.269.973.466.863.465.076.879.177.9
gpt-3.5-turbo18.848.127.142.031.836.247.151.349.1
gpt-425.468.037.057.854.356.054.067.560.0

MedSpellchecker 评估

模型准确率 (拼写)召回率 (拼写)F1值 (拼写)准确率 (标点)召回率 (标点)F1值 (标点)准确率 (大小写)召回率 (大小写)F1值 (大小写)
sage-ai-service71.373.572.475.169.272.080.972.876.6
sage-fredt5-large35.254.542.819.213.215.748.736.841.9
sage-fredt5-large (微调)72.572.272.374.666.470.379.385.182.1
sage-fredt5-distilled-95m (微调)65.164.864.978.663.170.063.574.768.7
gpt-3.5-turbo14.745.922.369.952.359.826.441.832.3
gpt-437.872.349.681.464.371.973.062.167.1

GitHubTypoCorpusRu 评估

模型准确率 (拼写)召回率 (拼写)F1值 (拼写)准确率 (标点)召回率 (标点)F1值 (标点)准确率 (大小写)召回率 (大小写)F1值 (大小写)
sage-ai-service70.856.362.748.935.841.432.945.338.1
sage-fredt5-large46.046.646.322.718.320.212.013.212.6
sage-fredt5-large (微调)67.553.259.548.538.042.637.350.042.7
sage-fredt5-distilled-95m (微调)57.848.552.745.239.542.129.946.236.3
gpt-3.5-turbo23.738.729.437.623.328.719.635.925.3
gpt-427.052.835.745.932.638.225.736.830.2

BEA60K 评估

模型准确率召回率F1值
sage-mt5-large64.783.873.0
T5-large-spell66.583.173.9
gpt-3.5-turbo66.984.174.5
gpt-468.685.276.0
Bert65.879.672.0
SC-LSTM62.280.372.0

JFLEG 评估

模型准确率召回率F1值
sage-mt5-large74.988.481.1
T5-large-spell83.484.383.8
gpt-3.5-turbo77.888.682.9
gpt-477.988.382.8
Bert78.585.481.8
SC-LSTM80.686.183.2

RUSpellRUMultidomainGoldMedSpellCheckerGitHubTypoCorpusRu 在 HuggingFace 上作为数据集提供,也可以通过我们库的 API 获取:

from sage.utils import load_available_dataset_from_hf, DatasetsAvailable print([dataset.name for dataset in DatasetsAvailable]) # ['MultidomainGold', 'RUSpellRU', 'MedSpellchecker', 'GitHubTypoCorpusRu', 'MultidomainGold_orth', 'RUSpellRU_orth', 'MedSpellchecker_orth', 'GitHubTypoCorpusRu_orth'] gold_dataset = load_available_dataset_from_hf(DatasetsAvailable.MultidomainGold.name, for_labeler=False) print(len(gold_dataset)) # 7675 sources, corrections = load_available_dataset_from_hf(DatasetsAvailable.RUSpellRU.name, for_labeler=True, split="train") print(len(sources), len(corrections)) # 2000 2000

评估

我们还提供功能来评估拼写纠正系统的性能并对它们进行排名。

🎯 目前有两个可用选项:

这两种算法都会输出准确率、召回率和 F1 值,可以解释如下:

  • 准确率:1 减去不必要修正的比例;
  • 召回率:预期纠正的比例;
  • F1 值:上述两个指标的著名几何平均值; 你可以通过以下方式简单获取这些指标:
from sage.evaluation import Scorer from sage.utils import DatasetsAvailable, load_available_dataset_from_hf sources, corrections = load_available_dataset_from_hf(DatasetsAvailable.RUSpellRU.name, for_labeler=True, split="test") scorer = Scorer() metrics = scorer.score(sources, corrections, corrections, metrics=["ruspelleval", "errant"]) print(metrics) # {'Precision': 100.0, 'Recall': 100.0, 'F1': 100.0, 'CASE_Precision': 100.0, 'CASE_Recall': 100.0, 'CASE_F1': 100.0, 'SPELL_Precision': 100.0, 'SPELL_Recall': 100.0, 'SPELL_F1': 100.0, 'PUNCT_Precision': 100.0, 'PUNCT_Recall': 100.0, 'PUNCT_F1': 100.0, 'YO_Precision': 100.0, 'YO_Recall': 100.0, 'YO_F1': 100.0}

... 或者直接评估模型:

import os import torch from sage.utils import DatasetsAvailable from sage.spelling_correction import AvailableCorrectors from sage.spelling_correction import T5ModelForSpellingCorruption corrector_fred_95m = T5ModelForSpellingCorruption.from_pretrained(AvailableCorrectors.sage_fredt5_distilled_95m.value) corrector_mt5 = T5ModelForSpellingCorruption.from_pretrained(AvailableCorrectors.sage_mt5_large.value) corrector_fred_95m.model.to(torch.device("cuda:0")) corrector_mt5.model.to(torch.device("cuda:0")) metrics = corrector_fred_95m.evaluate("RUSpellRU", metrics=["errant", "ruspelleval"], batch_size=32) print(metrics) # {'CASE_Precision': 94.41, 'CASE_Recall': 92.55, 'CASE_F1': 93.47, 'SPELL_Precision': 77.52, 'SPELL_Recall': 64.09, 'SPELL_F1': 70.17, 'PUNCT_Precision': 86.77, 'PUNCT_Recall': 80.59, 'PUNCT_F1': 83.56, 'YO_Precision': 46.21, 'YO_Recall': 73.83, 'YO_F1': 56.84, 'Precision': 83.48, 'Recall': 74.75, 'F1': 78.87} metrics = corrector_mt5.evaluate("/content/sage/data/example_data/jfleg", metrics=["ruspelleval"], batch_size=16) print(metrics) # {'Precision': 75.94, 'Recall': 88.15, 'F1': 81.59}

基于ERRANT算法输出的指标由相应的前缀指示,这些前缀指的是特定类型的错误:

  • CASE:错误使用的大小写;
  • SPELL:拼写和语法错误;
  • PUNCT:标点符号错误;
  • YO:不必要地替换"YO"(ё)字母;

📌 ruspelleval指标的评估脚本归功于Aleksei Sorokin及其在SpellRueval会议论文集中的杰出工作

引用

如果你想了解更多关于我们工作的信息,请查看以下出版物:

💥 我们的EACL 2024论文详细描述了获得拼写纠正SOTA模型的方法,以及所有进行的实验的全面报告。

💫 而我们的Dialogue-2023论文则侧重于利用拼写纠正任务的资源和获取高质量平行语料库的程序。

@inproceedings{martynov-etal-2024-methodology,
    title = "A Methodology for Generative Spelling Correction via Natural Spelling Errors Emulation across Multiple Domains and Languages",
    author = "Martynov, Nikita  and
      Baushenko, Mark  and
      Kozlova, Anastasia  and
      Kolomeytseva, Katerina  and
      Abramov, Aleksandr  and
      Fenogenova, Alena",
    editor = "Graham, Yvette  and
      Purver, Matthew",
    booktitle = "Findings of the Association for Computational Linguistics: EACL 2024",
    month = mar,
    year = "2024",
    address = "St. Julian{'}s, Malta",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2024.findings-eacl.10",
    pages = "138--155",
    abstract = "Large language models excel in text generation and generalization, however they face challenges in text editing tasks, especially in correcting spelling errors and mistyping.In this paper, we present a methodology for generative spelling correction (SC), tested on English and Russian languages and potentially can be extended to any language with minor changes. Our research mainly focuses on exploring natural spelling errors and mistyping in texts and studying how those errors can be emulated in correct sentences to enrich generative models{'} pre-train procedure effectively. We investigate the effects of emulations in various text domains and examine two spelling corruption techniques: 1) first one mimics human behavior when making a mistake through leveraging statistics of errors from a particular dataset, and 2) second adds the most common spelling errors, keyboard miss clicks, and some heuristics within the texts.We conducted experiments employing various corruption strategies, models{'} architectures, and sizes in the pre-training and fine-tuning stages and evaluated the models using single-domain and multi-domain test sets. As a practical outcome of our work, we introduce SAGE (Spell checking via Augmentation and Generative distribution Emulation).",
}

@inproceedings{martynov2023augmentation,
  title={Augmentation methods for spelling corruptions},
  author={Martynov, Nikita and Baushenko, Mark and Abramov, Alexander and Fenogenova, Alena},
  booktitle={Proceedings of the International Conference "Dialogue},
  volume={2023},
  year={2023}
}

📌 如果你有任何关于我们工作的问题,请随时与相应的联系人联系:

nikita.martynov.98@list.ru

编辑推荐精选

Trae

Trae

字节跳动发布的AI编程神器IDE

Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能,是提升开发效率的理想工具。

AI工具TraeAI IDE协作生产力转型热门
问小白

问小白

全能AI智能助手,随时解答生活与工作的多样问题

问小白,由元石科技研发的AI智能助手,快速准确地解答各种生活和工作问题,包括但不限于搜索、规划和社交互动,帮助用户在日常生活中提高效率,轻松管理个人事务。

热门AI助手AI对话AI工具聊天机器人
Transly

Transly

实时语音翻译/同声传译工具

Transly是一个多场景的AI大语言模型驱动的同声传译、专业翻译助手,它拥有超精准的音频识别翻译能力,几乎零延迟的使用体验和支持多国语言可以让你带它走遍全球,无论你是留学生、商务人士、韩剧美剧爱好者,还是出国游玩、多国会议、跨国追星等等,都可以满足你所有需要同传的场景需求,线上线下通用,扫除语言障碍,让全世界的语言交流不再有国界。

讯飞智文

讯飞智文

一键生成PPT和Word,让学习生活更轻松

讯飞智文是一个利用 AI 技术的项目,能够帮助用户生成 PPT 以及各类文档。无论是商业领域的市场分析报告、年度目标制定,还是学生群体的职业生涯规划、实习避坑指南,亦或是活动策划、旅游攻略等内容,它都能提供支持,帮助用户精准表达,轻松呈现各种信息。

AI办公办公工具AI工具讯飞智文AI在线生成PPTAI撰写助手多语种文档生成AI自动配图热门
讯飞星火

讯飞星火

深度推理能力全新升级,全面对标OpenAI o1

科大讯飞的星火大模型,支持语言理解、知识问答和文本创作等多功能,适用于多种文件和业务场景,提升办公和日常生活的效率。讯飞星火是一个提供丰富智能服务的平台,涵盖科技资讯、图像创作、写作辅助、编程解答、科研文献解读等功能,能为不同需求的用户提供便捷高效的帮助,助力用户轻松获取信息、解决问题,满足多样化使用场景。

热门AI开发模型训练AI工具讯飞星火大模型智能问答内容创作多语种支持智慧生活
Spark-TTS

Spark-TTS

一种基于大语言模型的高效单流解耦语音令牌文本到语音合成模型

Spark-TTS 是一个基于 PyTorch 的开源文本到语音合成项目,由多个知名机构联合参与。该项目提供了高效的 LLM(大语言模型)驱动的语音合成方案,支持语音克隆和语音创建功能,可通过命令行界面(CLI)和 Web UI 两种方式使用。用户可以根据需求调整语音的性别、音高、速度等参数,生成高质量的语音。该项目适用于多种场景,如有声读物制作、智能语音助手开发等。

咔片PPT

咔片PPT

AI助力,做PPT更简单!

咔片是一款轻量化在线演示设计工具,借助 AI 技术,实现从内容生成到智能设计的一站式 PPT 制作服务。支持多种文档格式导入生成 PPT,提供海量模板、智能美化、素材替换等功能,适用于销售、教师、学生等各类人群,能高效制作出高品质 PPT,满足不同场景演示需求。

讯飞绘文

讯飞绘文

选题、配图、成文,一站式创作,让内容运营更高效

讯飞绘文,一个AI集成平台,支持写作、选题、配图、排版和发布。高效生成适用于各类媒体的定制内容,加速品牌传播,提升内容营销效果。

热门AI辅助写作AI工具讯飞绘文内容运营AI创作个性化文章多平台分发AI助手
材料星

材料星

专业的AI公文写作平台,公文写作神器

AI 材料星,专业的 AI 公文写作辅助平台,为体制内工作人员提供高效的公文写作解决方案。拥有海量公文文库、9 大核心 AI 功能,支持 30 + 文稿类型生成,助力快速完成领导讲话、工作总结、述职报告等材料,提升办公效率,是体制打工人的得力写作神器。

openai-agents-python

openai-agents-python

OpenAI Agents SDK,助力开发者便捷使用 OpenAI 相关功能。

openai-agents-python 是 OpenAI 推出的一款强大 Python SDK,它为开发者提供了与 OpenAI 模型交互的高效工具,支持工具调用、结果处理、追踪等功能,涵盖多种应用场景,如研究助手、财务研究等,能显著提升开发效率,让开发者更轻松地利用 OpenAI 的技术优势。

下拉加载更多