langtest

langtest

开源工具助力语言模型全面测试与优化

LangTest是一款强大的开源工具,专为语言模型的测试和优化而设计。该工具提供超过60种测试类型,全面评估模型的鲁棒性、偏见、表示、公平性和准确性。LangTest兼容多个主流NLP框架,如Spark NLP、Hugging Face和Transformers。此外,它还能对OpenAI、Cohere等大型语言模型进行问答、毒性检测和临床测试等方面的评估。通过使用LangTest,数据科学家可以开发出更安全、可靠和负责任的自然语言处理模型。

LangTest语言模型测试NLP模型评估AI偏见检测Github开源项目
<p align="center"> <img src="https://yellow-cdn.veclightyear.com/ab5030c0/aba610b7-7642-4bc5-954f-c5fecc451eb3.png" alt="johnsnowlabs_logo" width="360" style="text-align:center;"> </p> <div align="center"> <h1 style="text-align: center; vertical-align: middle;">LangTest:交付安全有效的语言模型</h1> </div> <p align="center"> <a href="https://github.com/JohnSnowLabs/langtest/releases"> <img alt="发布说明" src="https://yellow-cdn.veclightyear.com/ab5030c0/441b49d3-0f62-4e4e-9861-9fbdcbd4fd36.svg"> </a> <a href="https://www.johnsnowlabs.com/responsible-ai-blog/"> <img alt="博客" src="https://img.shields.io/badge/负责任的AI博客-8A2BE2"> </a> <a href="https://langtest.org/docs/pages/docs/install"> <img alt="文档" src="https://img.shields.io/website?up_message=在线&url=https%3A%2F%2Flangtest.org%2F"> </a> <a href="https://star-history.com/#JohnSnowLabs/langtest"> <img alt="GitHub星标图" src="https://img.shields.io/github/stars/JohnSnowLabs/langtest?style=social"> </a> <a href="https://github.com/JohnSnowLabs/langtest/issues"> <img alt="未解决问题" src="https://img.shields.io/github/issues-raw/JohnSnowLabs/langtest"> </a> <a href="https://pepy.tech/project/langtest"> <img alt="下载量" src="https://static.pepy.tech/badge/langtest"> </a> <a href="https://github.com/JohnSnowLabs/langtest/actions/workflows/build_and_test.yml"> <img alt="CI" src="https://yellow-cdn.veclightyear.com/ab5030c0/89a8d111-b269-42d6-9771-0fce382cc964.svg"> </a> <a href="https://github.com/JohnSnowLabs/langtest/blob/master/LICENSE" alt="许可证"> <img src="https://yellow-cdn.veclightyear.com/ab5030c0/6b917bc7-5f22-436b-b5cd-3c528e8940cb.svg" /> </a> <a href="CODE_OF_CONDUCT.md"> <img alt="贡献者公约" src="https://yellow-cdn.veclightyear.com/ab5030c0/27ddee7a-39b4-4087-abc0-d9ff13b3815c.svg"> </a>

Langtest工作流程

<p align="center"> <a href="https://langtest.org/">项目网站</a> • <a href="#key-features">主要特性</a> • <a href="#how-to-use">使用方法</a> • <a href="#benchmark-datasets">基准数据集</a> • <a href="#community-support">社区支持</a> • <a href="#contributing-to-langtest">贡献</a> • <a href="#mission">使命</a> • <a href="#license">许可证</a> </p>

项目网站

查看我们的官方网页获取用户文档和示例:langtest.org

主要特性

  • 仅用1行代码即可生成并执行60多种不同类型的测试
  • 测试模型质量的各个方面:鲁棒性、偏见、表示、公平性和准确性
  • 根据测试结果自动增强训练数据(适用于特定模型)
  • 支持流行的NLP框架,用于命名实体识别、翻译和文本分类:Spark NLP、Hugging Face和Transformers
  • 支持测试大型语言模型(OpenAI、Cohere、AI21、Hugging Face推理API和Azure-OpenAI LLMs),用于问答、毒性检测、临床测试、法律支持、事实性、谄媚、摘要生成和其他流行测试

基准数据集

LangTest附带不同的数据集来测试您的模型,涵盖了广泛的用例和评估场景。您可以在这里探索所有可用的基准数据集,每个数据集都经过精心策划,以挑战和提升您的语言模型。无论您是专注于问答、文本摘要等,LangTest都能确保您拥有合适的数据来推动模型达到极限,并在各种语言任务中实现卓越性能。

使用方法

# 安装langtest !pip install langtest[transformers] # 导入并创建Harness对象 from langtest import Harness h = Harness(task='ner', model={"model":'dslim/bert-base-NER', "hub":'huggingface'}) # 生成测试用例,运行它们并查看报告 h.generate().run().report()

注意 有关更多详细使用示例和文档,请访问langtest.org

负责任的AI博客

您可以查看以下LangTest文章:

博客描述
自动测试大型语言模型生成的临床治疗方案中的人口统计偏见帮助理解和测试大型语言模型生成的临床治疗方案中的人口统计偏见。
LangTest:揭示并修复端到端自然语言处理流程中的偏见LangTest中的端到端语言流程使自然语言处理从业者能够以全面、数据驱动和迭代的方法解决语言模型中的偏见问题。
超越准确性:使用LangTest对命名实体识别模型进行鲁棒性测试虽然准确性无疑至关重要,但鲁棒性测试将自然语言处理(NLP)模型评估提升到了一个新的水平,确保模型能够在各种真实世界条件下可靠一致地表现。
通过自动化数据增强提升您的自然语言处理模型性能在本文中,我们讨论了如何通过自动化数据增强来提升自然语言处理模型的性能,以及我们如何使用LangTest来实现这一目标。
缓解人工智能中的性别-职业刻板印象:通过Langtest库使用Wino偏见测试评估模型在本文中,我们讨论了如何使用LangTest测试"Wino偏见"。它特别指测试由性别-职业刻板印象引起的偏见。
自动化负责任的人工智能:整合Hugging Face和LangTest以构建更强大的模型在本文中,我们探讨了Hugging Face(您获取最先进NLP模型和数据集的首选来源)与LangTest(您NLP流程的秘密测试和优化武器)之间的整合。
检测和评估谄媚偏见:对大型语言模型和人工智能解决方案的分析在这篇博文中,我们讨论了人工智能行为中普遍存在的谄媚问题及其在人工智能世界中带来的挑战。我们探讨了语言模型有时如何优先考虑一致性而非真实性,从而阻碍有意义和无偏见的对话。此外,我们揭示了解决这一问题的潜在革命性方案——合成数据,它有望彻底改变人工智能伙伴参与讨论的方式,使它们在各种真实世界条件下更加可靠和准确。
揭示语言模型在否定和毒性评估中的敏感性在这篇博文中,我们深入探讨了语言模型敏感性,研究模型如何处理语言中的否定和毒性。通过这些测试,我们深入了解了模型的适应性和响应能力,强调了NLP模型持续改进的必要性。
揭示语言模型中的偏见:性别、种族、残疾和社会经济视角在这篇博文中,我们探讨了语言模型中的偏见,聚焦于性别、种族、残疾和社会经济因素。我们使用CrowS-Pairs数据集评估这种偏见,该数据集旨在衡量刻板印象偏见。为了解决这些偏见,我们讨论了像LangTest这样的工具在促进NLP系统公平性方面的重要性。
揭示人工智能内部的偏见:性别、种族、宗教和经济如何塑造自然语言处理及其他领域在这篇博文中,我们探讨了人工智能偏见,讨论性别、种族、宗教和经济如何塑造NLP系统。我们讨论了减少偏见和促进人工智能系统公平性的策略。
使用Wino偏见测试评估大型语言模型中的性别-职业刻板印象在这篇博文中,我们深入探讨了在大型语言模型上测试WinoBias数据集,研究语言模型如何处理性别和职业角色、评估指标以及更广泛的影响。让我们探索使用LangTest在WinoBias数据集上评估语言模型,并直面解决人工智能偏见的挑战。
简化机器学习工作流程:整合MLFlow跟踪与LangTest以增强模型评估在这篇博文中,我们深入探讨了对透明、系统化和全面跟踪模型的日益增长的需求。介绍MLFlow和LangTest:这两个工具结合使用,为机器学习开发创造了革命性的方法。
测试大型语言模型的问答能力在这篇博文中,我们深入探讨了使用LangTest库增强问答评估能力。探索LangTest提供的不同评估方法,以解决评估问答(QA)任务的复杂性。
使用LangTest评估刻板印象偏见在这篇博文中,我们聚焦于使用StereoSet数据集来评估与性别、职业和种族相关的偏见。
测试基于LSTM的情感分析模型的稳健性通过LangTest Insights探索自定义模型的稳健性。
LangTest Insights:深入探究LLM在OpenBookQA上的稳健性利用LangTest Insights探索语言模型(LLMs)在OpenBookQA数据集上的稳健性。
LangTest:提升Transformers语言模型稳健性的秘密武器通过LangTest Insights探索Transformers语言模型的稳健性。
掌握模型评估:介绍LangTest中的全面排名和排行榜系统John Snow Labs的LangTest提供的模型排名和排行榜系统为评估人工智能模型提供了系统化方法,包括全面排名、历史比较和特定数据集的洞察,使研究人员和数据科学家能够就模型性能做出数据驱动的决策。
使用Prometheus-Eval和Langtest评估长篇回复Prometheus-Eval和LangTest联手提供开源、可靠且经济高效的长篇回复评估解决方案,结合了Prometheus的GPT-4级性能和LangTest强大的测试框架,提供详细、可解释的反馈和高准确度的评估。
确保医疗领域LLMs的精确性:药品名称互换的挑战准确识别药品名称对患者安全至关重要。使用LangTest的drug_generic_to_brand转换测试对GPT-4进行测试,发现当品牌名称被成分替代时,预测药品名称可能出现错误,突显了持续完善和严格测试的必要性,以确保医疗LLM的准确性和可靠性。

注意 要查看所有博客,请前往博客页面

社区支持

  • Slack 加入#langtest频道,与LangTest社区进行实时讨论
  • GitHub 用于报告错误、提出功能请求和贡献
  • 讨论区 与其他社区成员互动、分享想法,并展示您如何使用LangTest!

使命

尽管人们经常谈论需要训练安全、稳健和公平的AI模型,但很少有工具可供数据科学家用来实现这些目标。因此,生产系统中NLP模型的前沿状况令人遗憾。

我们在此提出一个早期的开源社区项目,旨在填补这一空白,并希望您能加入我们的使命。我们的目标是在先前研究的基础上进行构建,如Ribeiro等人(2020)Song等人(2020)Parrish等人(2021)van Aken等人(2021)等多项研究。

John Snow Labs为该项目分配了一个完整的开发团队,并承诺在未来几年内持续改进该库,就像我们对其他开源库所做的那样。您可以期待频繁的发布,新的测试类型、任务、语言和平台将定期添加。我们期待与您合作,使安全、可靠和负责任的NLP成为日常现实。

注意 有关使用和文档,请前往langtest.org

为LangTest做出贡献

我们欢迎各种形式的贡献:

详细的贡献概述可以在**贡献指南**中找到。

如果您想开始使用LangTest代码库,请转到GitHub的"issues"标签,开始浏览有趣的问题。那里列出了一些您可以开始的问题。或者,通过使用LangTest,您可能有自己的想法,或者在文档中发现某些可以改进的地方......您可以采取行动!

如有疑问,请随时在问答讨论中提问。

作为本项目的贡献者和维护者,您应遵守LangTest的行为准则。更多信息可以在以下位置找到:贡献者行为准则

引用

我们已发表了一篇论文,您可以引用LangTest库:

@article{nazir2024langtest, title={LangTest: A comprehensive evaluation library for custom LLM and NLP models}, author={Arshaan Nazir, Thadaka Kalyan Chakravarthy, David Amore Cecchini, Rakshit Khajuria, Prikshit Sharma, Ali Tarik Mirik, Veysel Kocaman and David Talby}, journal={Software Impacts}, pages={100619}, year={2024}, publisher={Elsevier} }

贡献者

我们要感谢这个开源社区项目的所有贡献者。

<a href="https://github.com/johnsnowlabs/langtest/graphs/contributors"> <img src="https://contrib.rocks/image?repo=johnsnowlabs/langtest" /> </a>

许可证

LangTest根据Apache许可证2.0发布,该许可证保证商业使用、修改、分发、专利使用、私人使用,并对商标使用、责任和保证设置限制。

编辑推荐精选

讯飞智文

讯飞智文

一键生成PPT和Word,让学习生活更轻松

讯飞智文是一个利用 AI 技术的项目,能够帮助用户生成 PPT 以及各类文档。无论是商业领域的市场分析报告、年度目标制定,还是学生群体的职业生涯规划、实习避坑指南,亦或是活动策划、旅游攻略等内容,它都能提供支持,帮助用户精准表达,轻松呈现各种信息。

AI办公办公工具AI工具讯飞智文AI在线生成PPTAI撰写助手多语种文档生成AI自动配图热门
讯飞星火

讯飞星火

深度推理能力全新升级,全面对标OpenAI o1

科大讯飞的星火大模型,支持语言理解、知识问答和文本创作等多功能,适用于多种文件和业务场景,提升办公和日常生活的效率。讯飞星火是一个提供丰富智能服务的平台,涵盖科技资讯、图像创作、写作辅助、编程解答、科研文献解读等功能,能为不同需求的用户提供便捷高效的帮助,助力用户轻松获取信息、解决问题,满足多样化使用场景。

热门AI开发模型训练AI工具讯飞星火大模型智能问答内容创作多语种支持智慧生活
Spark-TTS

Spark-TTS

一种基于大语言模型的高效单流解耦语音令牌文本到语音合成模型

Spark-TTS 是一个基于 PyTorch 的开源文本到语音合成项目,由多个知名机构联合参与。该项目提供了高效的 LLM(大语言模型)驱动的语音合成方案,支持语音克隆和语音创建功能,可通过命令行界面(CLI)和 Web UI 两种方式使用。用户可以根据需求调整语音的性别、音高、速度等参数,生成高质量的语音。该项目适用于多种场景,如有声读物制作、智能语音助手开发等。

Trae

Trae

字节跳动发布的AI编程神器IDE

Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能,是提升开发效率的理想工具。

AI工具TraeAI IDE协作生产力转型热门
咔片PPT

咔片PPT

AI助力,做PPT更简单!

咔片是一款轻量化在线演示设计工具,借助 AI 技术,实现从内容生成到智能设计的一站式 PPT 制作服务。支持多种文档格式导入生成 PPT,提供海量模板、智能美化、素材替换等功能,适用于销售、教师、学生等各类人群,能高效制作出高品质 PPT,满足不同场景演示需求。

讯飞绘文

讯飞绘文

选题、配图、成文,一站式创作,让内容运营更高效

讯飞绘文,一个AI集成平台,支持写作、选题、配图、排版和发布。高效生成适用于各类媒体的定制内容,加速品牌传播,提升内容营销效果。

热门AI辅助写作AI工具讯飞绘文内容运营AI创作个性化文章多平台分发AI助手
材料星

材料星

专业的AI公文写作平台,公文写作神器

AI 材料星,专业的 AI 公文写作辅助平台,为体制内工作人员提供高效的公文写作解决方案。拥有海量公文文库、9 大核心 AI 功能,支持 30 + 文稿类型生成,助力快速完成领导讲话、工作总结、述职报告等材料,提升办公效率,是体制打工人的得力写作神器。

openai-agents-python

openai-agents-python

OpenAI Agents SDK,助力开发者便捷使用 OpenAI 相关功能。

openai-agents-python 是 OpenAI 推出的一款强大 Python SDK,它为开发者提供了与 OpenAI 模型交互的高效工具,支持工具调用、结果处理、追踪等功能,涵盖多种应用场景,如研究助手、财务研究等,能显著提升开发效率,让开发者更轻松地利用 OpenAI 的技术优势。

Hunyuan3D-2

Hunyuan3D-2

高分辨率纹理 3D 资产生成

Hunyuan3D-2 是腾讯开发的用于 3D 资产生成的强大工具,支持从文本描述、单张图片或多视角图片生成 3D 模型,具备快速形状生成能力,可生成带纹理的高质量 3D 模型,适用于多个领域,为 3D 创作提供了高效解决方案。

3FS

3FS

一个具备存储、管理和客户端操作等多种功能的分布式文件系统相关项目。

3FS 是一个功能强大的分布式文件系统项目,涵盖了存储引擎、元数据管理、客户端工具等多个模块。它支持多种文件操作,如创建文件和目录、设置布局等,同时具备高效的事件循环、节点选择和协程池管理等特性。适用于需要大规模数据存储和管理的场景,能够提高系统的性能和可靠性,是分布式存储领域的优质解决方案。

下拉加载更多