Evalverse: 革新大型语言模型评估的开源项目

Evalverse简介

Evalverse是一个创新的开源项目，由Upstage公司的数据中心LLM团队开发，旨在解决大型语言模型(LLM)评估领域的痛点。作为一个统一的评估生态系统，Evalverse为AI研究人员和工程师提供了一个简单、标准化且用户友好的解决方案，用于处理和管理LLM评估。

Evalverse概览

Evalverse的主要特性

统一的评估框架：Evalverse通过Git子模块扩展其评估能力，无缝整合了多个评估框架，如lm-evaluation-harness和FastChat。这使得用户可以轻松访问各种评估方法，而无需在多个库之间切换。
无代码评估请求：Evalverse支持无代码评估过程，即使是对LLM不太熟悉的人也能轻松使用。用户可以通过Slack机器人发送简单的命令来启动评估和生成报告。
全面的评估报告：Evalverse提供详细的评估报告，包括分数、排名和可视化结果，帮助用户比较不同模型的表现。
开放性和可扩展性：作为一个开源项目，Evalverse欢迎社区贡献，用户可以轻松添加新的评估工具和方法。

Evalverse的架构

Evalverse的架构设计旨在提供灵活性和可扩展性。以下是Evalverse的架构图：

Evalverse架构

该架构包括以下主要组件：

评估器（Evaluator）：负责执行各种评估任务。
报告生成器（Reporter）：生成综合评估报告。
数据库：存储评估结果和模型信息。
Slack机器人：提供无代码交互界面。

使用Evalverse

安装

Evalverse的安装过程相对简单。用户可以通过以下步骤安装：

克隆Evalverse仓库：

git clone --recursive https://github.com/UpstageAI/evalverse.git

安装依赖包：
```
cd evalverse
pip install -e .
```

配置

在使用Evalverse之前，需要进行一些配置：

重命名.env_sample文件为.env。
在.env文件中设置必要的API密钥和令牌，如OpenAI API密钥和Slack机器人令牌。

快速开始

Evalverse提供了多种使用方式，包括通过Python库和命令行界面(CLI)进行评估。

使用Python库进行评估

import evalverse as ev

evaluator = ev.Evaluator()

model = "upstage/SOLAR-10.7B-Instruct-v1.0"
benchmark = "h6_en"

evaluator.run(model=model, benchmark=benchmark)

使用CLI进行评估

cd evalverse

python3 evaluator.py \
  --h6_en \
  --ckpt_path upstage/SOLAR-10.7B-Instruct-v1.0

生成报告

Evalverse还支持生成综合评估报告：

import evalverse as ev

db_path = "./db"
output_path = "./results"
reporter = ev.Reporter(db_path=db_path, output_path=output_path)

reporter.update_db(save=True)

model_list = ["SOLAR-10.7B-Instruct-v1.0", "Llama-2-7b-chat-hf"]
benchmark_list = ["h6_en"]
reporter.run(model_list=model_list, benchmark_list=benchmark_list)