jury

一个用于评估自然语言处理实验的综合工具包，提供各种自动化指标。Jury提供了一个流畅且易于使用的界面。它使用了evaluate设计的更高级版本作为底层指标计算，因此添加自定义指标就像扩展适当的类一样简单。

Jury提供的主要优势有：

易于用于任何NLP项目。
所有指标的计算输入采用统一结构。
一次性计算多个指标。
指标计算可以并发处理以节省处理时间。
无缝支持多预测/多参考的评估。

想了解更多，请查看Jury官方博客文章。

🔥 新闻

(2024.05.29) Retraction Watch文章关于论文撤回的帖子已发布。被抄袭的论文已被撤回。
(2023.10.03) Jury论文现已在arxiv上发布。如果您的工作使用了Jury，并且您的出版材料将在此日期之后提交至会议，请引用这篇论文。
(2023.07.30) **公告：**您可以查看我们的官方公告文件，该文件声明了关于本代码库中提供的工作jury被抄袭的指控。

可用指标

下表显示了当前可用指标的支持状态。

指标	Jury 支持	HF/evaluate 支持
准确率-数值	:heavy_check_mark:	:white_check_mark:
准确率-文本	:heavy_check_mark:	:x:
Bartscore	:heavy_check_mark:	:x:
Bertscore	:heavy_check_mark:	:white_check_mark:
Bleu	:heavy_check_mark:	:white_check_mark:
Bleurt	:heavy_check_mark:	:white_check_mark:
CER	:heavy_check_mark:	:white_check_mark:
CHRF	:heavy_check_mark:	:white_check_mark:
COMET	:heavy_check_mark:	:white_check_mark:
F1-数值	:heavy_check_mark:	:white_check_mark:
F1-文本	:heavy_check_mark:	:x:
METEOR	:heavy_check_mark:	:white_check_mark:
精确率-数值	:heavy_check_mark:	:white_check_mark:
精确率-文本	:heavy_check_mark:	:x:
Prism	:heavy_check_mark:	:x:
召回率-数值	:heavy_check_mark:	:white_check_mark:
召回率-文本	:heavy_check_mark:	:x:
ROUGE	:heavy_check_mark:	:white_check_mark:
SacreBleu	:heavy_check_mark:	:white_check_mark:
Seqeval	:heavy_check_mark:	:white_check_mark:
Squad	:heavy_check_mark:	:white_check_mark:
TER	:heavy_check_mark:	:white_check_mark:
WER	:heavy_check_mark:	:white_check_mark:
其他指标*	:white_check_mark:	:white_check_mark:

* 表示除表中列出的指标外，evaluate包中可用的其他指标的占位符。

注意

:heavy_check_mark: 表示完全支持Jury，这意味着支持所有输入类型组合（单个预测和单个参考、单个预测和多个参考、多个预测和多个参考）。
:white_check_mark: 表示支持该指标（对于Jury，通过evaluate支持），因此可以（也应该）按照evaluate实现中的指示使用，就像使用evaluate指标一样，尽管目前这些指标还不能完全支持Jury。

请求新指标

如需请求新指标，请提出问题并提供最低限度的信息。同时，我们也欢迎针对新指标支持的PR。

<div align="center"> 安装 </div>

通过pip安装：

pip install jury

或从源代码构建：

git clone https://github.com/obss/jury.git
cd jury
python setup.py install

注意： 在Windows机器上，由于pywin32包的原因，某些依赖于sacrebleu包的指标可能会出现故障。为此，我们在安装配置中固定了Windows平台的pywin32版本。但是，如果pywin32在您的环境中仍然造成问题，我们强烈建议使用conda管理器安装该包，命令为conda install pywin32。

<div align="center"> 使用方法 </div>

API使用

只需两行代码即可评估生成的输出。

from jury import Jury

scorer = Jury()
predictions = [
    ["猫在垫子上", "有只猫在垫子上玩耍"], 
    ["看！一个美好的日子。"]
]
references = [
    ["猫在垫子上玩耍。", "猫在垫子上玩。"], 
    ["今天是个美好的日子", "外面的天气很好。"]
]
scores = scorer(predictions=predictions, references=references)

在实例化时指定要使用的指标。

scorer = Jury(metrics=["bleu", "meteor"])
scores = scorer(predictions, references)

单独使用指标

您可以直接从jury.metrics中以类的形式导入指标，然后按需实例化和使用。

from jury.metrics import Bleu

bleu = Bleu.construct()
score = bleu.compute(predictions=predictions, references=references)

可以在compute()中指定额外参数

from jury.metrics import Bleu

bleu = Bleu.construct()
score = bleu.compute(predictions=predictions, references=references, max_order=4)

或者在实例化时指定

from jury.metrics import Bleu
bleu = Bleu.construct(compute_kwargs={"max_order": 1})
score = bleu.compute(predictions=predictions, references=references)

请注意，您可以通过jury.load_metric无缝访问jury和evaluate的指标。

import jury
bleu = jury.load_metric("bleu")
bleu_1 = jury.load_metric("bleu", resulting_name="bleu_1", compute_kwargs={"max_order": 1})
# 在`jury`中不可用但在`evaluate`中可用的指标
wer = jury.load_metric("competition_math") # 它会回退到`evaluate`包并发出警告

命令行使用

你可以指定预测文件和参考文件路径来获取结果分数。两个文件中的每一行应该是成对的。你可以选择提供reduce函数和结果导出路径。

jury eval --predictions /path/to/predictions.txt --references /path/to/references.txt --reduce_fn max --export /path/to/export.txt

你也可以提供预测文件夹和参考文件夹来评估多个实验。但在这种设置下，需要成对评估的预测和参考文件必须具有相同的文件名。这些相同的名称会被配对用于预测和参考。

jury eval --predictions /path/to/predictions_folder --references /path/to/references_folder --reduce_fn max --export /path/to/export.txt

如果你想指定指标，而不使用默认值，请在配置文件（json）的metrics键中指定。

{
  "predictions": "/path/to/predictions.txt",
  "references": "/path/to/references.txt",
  "reduce_fn": "max",
  "metrics": [
    "bleu",
    "meteor"
  ]
}

然后，你可以使用config参数调用jury eval。

jury eval --config path/to/config.json

自定义指标

你可以通过继承jury.metrics.Metric来使用自定义指标，你可以在jury/metrics中查看Jury当前实现的指标。对于Jury目前不支持的指标，它会回退到evaluate的实现，你可以在evaluate/metrics中查看evaluate可用的指标。

Jury本身使用evaluate.Metric作为基类来驱动其自己的基类jury.metrics.Metric。接口类似；但是，Jury通过处理每个指标的输入，使指标采用统一的输入类型，并允许支持多种输入类型，如：

单预测 & 单参考
单预测 & 多参考
多预测 & 多参考

作为自定义指标，两个基类都可以使用；但是，我们强烈建议使用jury.metrics.Metric，因为它有几个优势，比如支持上述输入类型的计算或统一输入类型。

from jury.metrics import MetricForTask

class CustomMetric(MetricForTask):
    def _compute_single_pred_single_ref(
        self, predictions, references, reduce_fn = None, **kwargs
    ):
        raise NotImplementedError

    def _compute_single_pred_multi_ref(
        self, predictions, references, reduce_fn = None, **kwargs
    ):
        raise NotImplementedError

    def _compute_multi_pred_multi_ref(
            self, predictions, references, reduce_fn = None, **kwargs
    ):
        raise NotImplementedError

更多详情，请查看基础指标实现jury.metrics.Metric

<div align="center"> 贡献 </div>

我们随时欢迎PR :)

安装

git clone https://github.com/obss/jury.git
cd jury
pip install -e ".[dev]"

此外，你需要使用以下命令单独安装通过git源提供的包。对于好奇"为什么？"的人来说，简短的解释是PYPI出于安全原因不允许索引直接依赖于非pypi包的包。文件requirements-dev.txt包含目前只能通过git源获得的包，或者它们是PYPI包但没有最新发布或与Jury不兼容，因此它们被添加为git源或指向特定的提交。

pip install -r requirements-dev.txt

测试

要进行测试，只需运行。

python tests/run_tests.py

代码风格

要检查代码风格，

python tests/run_code_style.py check

要格式化代码库，

python tests/run_code_style.py format

<div align="center"> 引用 </div>

如果你在工作中使用了这个包，请引用它：

@misc{cavusoglu2023jury,
  title={Jury: A Comprehensive Evaluation Toolkit}, 
  author={Devrim Cavusoglu and Ulas Sert and Secil Sen and Sinan Altinuc},
  year={2023},
  eprint={2310.02040},
  archivePrefix={arXiv},
  primaryClass={cs.CL},
  doi={10.48550/arXiv.2310.02040}
}