BenchLLM 是一个基于 Python 的开源库,专门用于简化大型语言模型(LLM)和人工智能驱动应用的测试。它通过使用 LLM 测试大量数据来验证模型、代理和链的响应准确性。BenchLLM 活跃于 V7 公司,并且已经开放源码为社区共享,采用 MIT 许可协议。
BenchLLM 使用一个独特的两步法进行机器学习模型的验证:
BenchLLM 可以通过 pip 安装:
pip install benchllm
用户需使用 @benchllm.test
装饰器标记需要测试的函数。然后,准备好你的测试,这些测试以 YAML/JSON 文件的形式组织。运行测试的命令为:
bench run
BenchLLM 提供多种评估方法来检查预测是否符合预期值:
semantic
:使用大语言模型进行语义相似性检查。embedding
:通过嵌入向量的余弦距离进行评估。string-match