instruct-eval是一个用于评估指令微调语言模型(Instruction-tuned Language Models)的开源工具包,由新加坡管理大学的研究人员开发。该工具包旨在提供一个标准化的评估框架,帮助研究人员更好地比较不同指令微调模型的性能。
要使用instruct-eval评估模型,只需几个简单步骤:
conda create -n instruct-eval python=3.8 -y
conda activate instruct-eval
pip install -r requirements.txt
mkdir -p data
wget https://people.eecs.berkeley.edu/~hendrycks/data.tar -O data/mmlu.tar
tar -xf data/mmlu.tar -C data && mv data/data data/mmlu
python main.py mmlu --model_name llama --model_path chavinlo/alpaca-native
就这么简单,您就可以获得模型在MMLU任务上的评估结果了!
instruct-eval支持多种主流的指令微调模型,包括:
评估任务涵盖多个领域:
通过这些多样化的任务,可以全面评估模型的能力。
instruct-eval提供了一个在线排行榜,展示了各个模型在不同任务上的表现。以下是部分结果:
模型 | MMLU | BBH | DROP | HumanEval |
---|---|---|---|---|
GPT-4 | 86.4 | 80.9 | - | 67.0 |
ChatGPT | 70.0 | 64.1 | - | 48.1 |
Flan-T5 (XXL) | 54.5 | 43.9 | - | - |
Vicuna-13B | 49.7 | 37.1 | 32.9 | 15.2 |
完 整结果请查看排行榜。
instruct-eval为研究人员提供了一个强大而易用的工具,用于系统地评估指令微调语言模型。无论您是想比较不同模型的性能,还是评估自己训练的模型,instruct-eval都是一个不错的选择。欢迎访问GitHub仓库了解更多信息,并为这个开源项目做出贡献!