LLMPerf:开源的LLM性能基准测试工具

LLMPerf简介

LLMPerf是由Ray项目团队开发的一个开源库,旨在为大型语言模型(LLM)提供标准化的性能基准测试工具。随着LLM技术的快速发展,各种模型和服务提供商不断涌现,但缺乏统一的评估标准。LLMPerf的出现填补了这一空白,为LLM的性能评估提供了可复现、透明的解决方案。

LLMPerf benchmark results

LLMPerf定义了以下几个关键性能指标来全面评估LLM的性能:

这个指标反映了LLM服务的吞吐量。LLMPerf通过改变并发请求数来测试系统在不同负载下的表现。测试结果显示,Anyscale和Fireworks都能扩展到每分钟数百个查询,其中Anyscale略胜一筹(每分钟最多227个查询vs Fireworks的184个)。

TTFT对于流式应用(如聊天机器人)尤为重要。测试显示,在低负载时Anyscale较快,但随着并发请求数增加,Fireworks的表现略好。在5个并发查询时,两者的延迟差异通常在100毫秒以内。

这个指标衡量连续token生成的速度。测试结果表明,Anyscale在这方面的表现始终优于Fireworks,尽管差异相对较小(约5%到20%)。

端到端时间是完成整个查询所需的总时间。在5个并发查询时,Anyscale比Fireworks快15%(4.6秒vs 5.3秒)。但在高负载(30个并发查询)时,差距缩小到5%。

LLMPerf TTFT comparison

LLMPerf还考虑了经济因素。对于典型工作负载(550个输入token,150个输出token),Anyscale Endpoints比Fireworks便宜约15%。但对于极端总结等高输入低输出比的场景,Fireworks可能更具成本优势。

LLMPerf采用了精心设计的测试方法,以确保结果的可靠性和代表性:

LLMPerf为不同类型的LLM应用提供了选择指导:

低流量交互应用:对于聊天机器人等应用,三种测试的LLM服务(Anyscale、Fireworks、Perplexity)都能满足需求,Anyscale在成本上略有优势。
超低延迟应用:Perplexity在端到端延迟方面表现出色,但仍处于测试阶段,pricing尚未公布。
大规模工作负载:Anyscale和Fireworks都适合,但对于典型工作负载,Anyscale在成本和性能上略胜一筹。
特殊场景:对于极端总结等高输入低输出比的场景,Fireworks可能更具优势。