<p align="center"> <img src="https://yellow-cdn.veclightyear.com/835a84d5/8b4e504e-c0bc-489d-ac94-af420781fd00.png" style="width: 85%;" id="title-icon"> </p>
<p align="center">
🌐 <a href="https://cevalbenchmark.com/" target="_blank">网站</a> • 🤗 <a href="https://huggingface.co/datasets/ceval/ceval-exam" target="_blank">Hugging Face</a> • ⏬ <a href="#data" target="_blank">数据</a> • 📃 <a href="https://arxiv.org/abs/2305.08322" target="_blank">论文</a> 📖 <a href="resources/tutorial.md" target="_blank">教程(中文)</a> <br> <a href="https://github.com/SJTU-LIT/ceval/blob/main/README_zh.md"> 中文</a> | <a href="https://github.com/SJTU-LIT/ceval/blob/main/README.md">英文
</p>
C-Eval是一个全面的中文基础模型评估套件。它包含13948个多选题,涵盖52个不同学科和四个难度级别,如下图所示。请访问我们的网站或查看我们的论文以获取更多详细信息。
我们希望C-Eval能帮助开发者跟踪进展并分析他们模型的重要优势和不足。
📝 为什么要创建C-Eval?我们是如何构建它的?(中文)
<img src="https://yellow-cdn.veclightyear.com/835a84d5/24f6a84b-fc56-4323-924f-4fc920047e93.png" style="zoom: 80%;" >
新闻
目录
排行榜
以下是我们在初始发布中评估的模型的零样本和五样本准确率,请访问我们的官方排行榜以获取最新的模型及其在每个科目上的详细结果。我们注意到,对于许多经过指令微调的模型,零样本性能优于五样本性能。
零样本