
开源大语言模型评估工具
Auto-J是一款开源的大语言模型评估工具,可评估模型与人类偏好的对齐程度。该工具覆盖58个真实场景,支持成对响应比较和单一响应评估,并提供详细的自然语言评论。Auto-J具有通用性强、灵活性高、可解释性好等特点,在多项评估任务中表现优异,为大语言模型的对齐研究提供支持。
这是用于评估对齐的生成式评判器的官方代码仓库。
我们开发了Auto-J,这是一个新的开源生成式评判器,可以有效评估不同大语言模型在多大程度上与人类偏好保持一致。它具有以下特点:
我们发布了成对回复比较和评论生成任务的基准测试结果作为排行榜。详见./codes/leaderboard/README.md。
对于成对比较任务,评估指标是与人类偏好的一致率和交换回复顺序后的一致性率(不适用于独立评分方法)。对于奖励模型,我们手动搜索0到2.0之间0.01间隔的最佳"平局"阈值。(我们略微修改了代码以从文本生成中提取判断,因此数值与论文中的略有不同。)
| 模型 | 类型 | 生成式 | 一致率 | 一致性 |
|---|---|---|---|---|
| GPT-4 | 成对 | ✔️ | 62.28 | 86.28 |
| Auto-J (我们的) | 成对 | ✔️ | 54.96 | 83.41 |
| Moss-RM | 单一 | ❌ | 54.31 | - |
| Auto-J-Bilingual (英文) (我们的) | 成对 | ✔️ | 53.45 | 81.61 |
| Ziya-RM | 单一 | ❌ | 53.23 | - |
| Beaver-RM | 单一 | ❌ | 52.37 | - |
| OASST-RM | 单一 | ❌ | 51.08 | - |
| Auto-J-Bilingual (中文) (我们的) | 成对 | ✔️ | 49.43 | 77.23 |
| LLaMA-2-70B-Chat | 成对 | ✔️ | 46.12 | 69.90 |
| ChatGPT | 成对 | ✔️ | 42.74 | 62.43 |
| Claude-2 | 成对 | ✔️ | 42.6 | 63.43 |
| SteamSHP | 成对 | ✔️ | 40.59 | 65.59 |
| PandaLM | 成对 | ✔️ | 39.44 | 66.88 |
| Vicuna-13B-v1.5 | 成对 | ✔️ | 39.22 | 62.07 |
| WizardLM-13B-v1.5 | 成对 | ✔️ | 36.35 | 57.69 |
| LLaMA-2-13B-Chat | 成对 | ✔️ | 29.81 | 48.56 |
对于评论生成任务,评估指标是由GPT-4判断的对比参考模型(ChatGPT)生成的评论的胜率。
| 模型 | 胜 | 平 | 负 |
|---|---|---|---|
| Auto-J (我们的) | 73.7 | 2.2 | 24.1 |
| Auto-J-Bilingual (中文) (我们的) | 66.4 | 0.0 | 33.6 |
| Auto-J-Bilingual (英文) (我们的) | 65.5 | 0.9 | 33.6 |
| GPT-4 | 58.2 | 7.3 | 34.5 |
| ChatGPT (参考) | 50.0 | 0.0 | 50.0 |
| LLaMA-2-13B-Chat | 47.0 | 3.9 | 49.1 |
| WizardLM-13B-v1.5 | 38.8 | 7.7 | 53.5 |
| Vicuna-13B-v1.5 | 35.4 | 7.3 | 57.3 |
| SelFee | 12.9 | 1.7 | 85.4 |
我们在本项目中使用python 3.10。建议你通过conda创建一个虚拟环境。
然后,我们需要安装requirements.txt中列出的所有库。注意,你可以根据你的CUDA版本选择合适的torch版本(我们在这个文件中写的是torch>=2.0.1+cu118)。
pip install -r requirements.txt
Auto-J现已在huggingface-hub上可用:
| 模型名称 | HF 检查点 | 大小 | 许可证 |
|---|---|---|---|
| Auto-J | 🤗 GAIR/autoj-13b | 13B | Llama 2 |
| Auto-J-Bilingual | 🤗 GAIR/autoj-bilingual-6b | 6B | Yi 许可证 |