prometheus-eval

项目介绍：Prometheus-Eval

Prometheus-Eval 是一个专为生成任务中的大型语言模型（LLMs）提供评估工具的开源项目。这个项目的核心在于通过模拟人类判断，对LLMs进行精细化评估，从而提高这些模型在不同任务中的表现。Prometheus-Eval 不仅提供了多种评估数据集和工具，还支持模型的训练与微调，是语言模型领域的重要支持工具之一。

项目特点

开源访问：Prometheus-Eval 是一个完全开源的项目，用户可以免费访问所有的资源和工具。这使得开发者能够不依赖封闭源代码的模型，建立自己的评估框架。
灵活评估能力：Prometheus-Eval 提供了直接评估（绝对评分）和对比排名（相对评分）两种模式。开发者可以根据需要选择适合的评估方式，大大提高了评估的灵活性。
可控性：开发者可以在本地使用评估工具，避免将私密数据上传至公共平台，掌握对更新和数据隐私的完全控制权。
经济高效：如果开发者已经拥有 GPU 硬件，便可以自行运行这些工具，而不用额外支出。

快速安装和使用

通过以下命令进行安装：

pip install prometheus-eval

Prometheus-Eval 支持本地推理（需要安装 vllm 通过以下命令）和通过 LLM API 进行推理（参考 litellm 文档）。

本地推理

pip install vllm

在 Python 中，使用 Prometheus-Eval 进行绝对评分（输出1至5的分数）或对比评分（输出"A"或"B"）非常简单，有详细的例程作为参考。

关于 Prometheus-Eval 的更多信息

评估和训练：除了评估服务，Prometheus-Eval 还包括在大模型上训练和微调的脚本。开发人员可以使用这些工具微调模型以实现特定的任务需要。
数据质量和 RAG 应用：Prometheus-Eval 可以用作数据质量过滤工具，还能够在检索增强生成(RAG)应用中作为评估器使用，实现数据和生成质量的双提升。

致谢

Prometheus-Eval 的开发建立在多项开源项目之上，包括 Huggingface 的 Alignment Handbook 和 vllm 等。感谢所有为这些开源项目做出贡献的开发者们。

引用

如果您发现 Prometheus-Eval 的工作有用，请考虑引用项目相关的论文。

@misc{kim2024prometheus,
      title={Prometheus 2: An Open Source Language Model Specialized in Evaluating Other Language Models}, 
      author={Seungone Kim and others},
      year={2024},
      eprint={2405.01535},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

通过使用 Prometheus-Eval，您可以获得更细致的生成模型评估能力，确保模型的公平性、可控性，并节省计算成本。