韩语语言模型多领域思维能力基准测试
欢迎提交PR。 我们也接受基准测试结果的自我报告。请通过issue或PR提交。💕
make format && make check
检查代码格式。(需要安装black、isort、ruff依赖)本仓库包含LogicKor基准测试的推理和评估代码以及数据集。
使用GPU 0,1,model_len为4096
python generator.py --model yanolja/EEVE-Korean-Instruct-10.8B-v1.0 --gpu_devices 0,1 --model_len 4096
python evaluator.py -o ./generated/yanolja/EEVE-Korean-Instruct-10.8B-v1.0 -k sk-somethingsomething -t 30
export AZURE_ENDPOINT=$AZURE_ENDPOINT export AZURE_DEPLOYMENT_NAME=$AZURE_DEPLOYMENT_NAME export AZURE_API_VERSION=$AZURE_API_VERSION python evaluator.py --azure -o ./generated/yanolja/EEVE-Korean-Instruct-10.8B-v1.0 -k sk-somethingsomething -t 30
python score.py -p ./evaluated/yanolja/EEVE-Korean-Instruct-10.8B-v1.0/default.jsonl