Opus-MT

开放翻译服务的工具和资源

基于 Marian-NMT
使用 OPUS-MT-train 在 OPUS 数据上训练（新：排行榜）
主要基于 SentencePiece 分词
大多使用基于 eflomal 词对齐的引导对齐进行训练
预训练可下载翻译模型（矩阵视图），CC-BY 4.0 许可
来自 Tatoeba 翻译挑战的更多自由可用翻译模型，CC-BY 4.0 许可
543 个语言变体的在线演示 API 可在 Tiyaro.ai 上使用。例如，英语到德语的微调翻译器

本仓库包含两种设置：

设置 1：基于 Tornado 的 Web 应用程序，提供 Web 界面和 API 以支持多语言对（由维基媒体基金会的 Santhosh Thottingal 及其团队开发）
设置 2：一个带有一些实验性 API 扩展的简单 WebSocket 服务设置

还有用于训练模型的脚本，但目前这些脚本仅适用于赫尔辛基大学和 CSC 作为 IT 服务提供商所使用的计算环境。

如果使用 OPUS-MT 软件和模型，请引用以下论文：

@article{tiedemann2023democratizing,
  title={Democratizing neural machine translation with {OPUS-MT}},
  author={Tiedemann, J{\"o}rg and Aulamo, Mikko and Bakshandaeva, Daria and Boggia, Michele and Gr{\"o}nroos, Stig-Arne and Nieminen, Tommi and Raganato, Alessandro and Scherrer, Yves and Vazquez, Raul and Virpioja, Sami},
  journal={Language Resources and Evaluation},
  number={58},
  pages={713--755},
  year={2023},
  publisher={Springer Nature},
  issn={1574-0218},
  doi={10.1007/s10579-023-09704-w}
}

@InProceedings{TiedemannThottingal:EAMT2020,
  author = {J{\"o}rg Tiedemann and Santhosh Thottingal},
  title = {{OPUS-MT} — {B}uilding open translation services for the {W}orld},
  booktitle = {Proceedings of the 22nd Annual Conferenec of the European Association for Machine Translation (EAMT)},
  year = {2020},
  address = {Lisbon, Portugal}
 }

基于 Tornado 的 Web 应用安装

从 GitHub 下载最新版本：

git clone https://github.com/Helsinki-NLP/Opus-MT.git

选项 1：手动设置

安装 Marian MT。按照 https://marian-nmt.github.io/docs/ 的文档进行操作（别忘了包含用于编译服务器二进制文件的 cmake 选项 -DCOMPILE_SERVER=ON）安装后，marian-server 应该在路径中。如果不在，请将其放在 /usr/local/bin 中

安装先决条件。建议使用虚拟环境。

pip install -r requirements.txt

从 https://github.com/Helsinki-NLP/Opus-MT-train/tree/master/models 下载翻译模型并将它们放在 models 目录中。

然后编辑 services.json 以指向这些模型。

最后启动 Web 服务器。

python server.py

默认情况下，它将使用 8888 端口。在浏览器中打开 localhost:8888 以获取 Web 界面。services.json 中配置的语言将可用。

选项 2：使用 Docker

docker-compose up

或

docker build . -t opus-mt
docker run -p 8888:8888 opus-mt:latest

然后在浏览器中打开 localhost:8888

选项 2.1：使用带 CUDA GPU 的 Docker

docker build -f Dockerfile.gpu . -t opus-mt-gpu
nvidia-docker run -p 8888:8888 opus-mt-gpu:latest

然后在浏览器中打开 localhost:8888

配置

server.py 程序接受 JSON 格式的配置文件。默认情况下，它会尝试使用当前目录中的 services.json。但你可以使用 -c 标志提供自定义配置文件。

一个示例配置文件如下所示：

{
    "en": {
        "es": {
            "configuration": "./models/en-es/decoder.yml",
            "host": "localhost",
            "port": "10001"
        },
        "fi": {
            "configuration": "./models/en-fi/decoder.yml",
            "host": "localhost",
            "port": "10002"
        },
    }
}

这个示例配置可以为 en->es 和 en->fi 语言对提供 MT 服务。

configuration 指向包含 marian-server 可用的解码器配置的 yaml 文件。如果未提供此值，Opus-MT 将假定服务已在远程主机上运行，并根据其他选项进行发布。如果提供了值，将使用 marian-server 创建一个新的子进程
host：服务器运行的主机。
port：marian-server 监听的端口。

在 Ubuntu 上安装 WebSocket 服务

还有一个选项是使用WebSockets和Linux服务设置翻译服务。详细信息可从doc/WebSocketServer.md获取。

公共机器翻译模型

我们在https://github.com/Helsinki-NLP/Opus-MT-train/tree/master/models存储公共模型（CC-BY 4.0许可证）。它们都应该与OPUS-MT服务兼容，您可以通过指定语言对来安装它们。安装脚本会选择该目录中的最新模型。如需额外定制，您需要调整安装程序（在Makefile或其他地方）。

还有一些开发版模型，通常更具实验性且质量较低。但它们包含额外的语言对，可以从https://github.com/Helsinki-NLP/Opus-MT-train/tree/master/work-spm/models下载。

训练机器翻译模型

Opus-MT-train仓库中有一个用于从OPUS数据训练新模型的Makefile，但这是针对CSC和赫尔辛基大学项目的工作环境高度定制的。希望将来这能变得更通用，以便在不同环境和设置中运行。

已知问题

大多数自动评估是在Tatoeba数据集的简单短句上进行的；这些分数在使用其他更真实的数据集时会过于乐观
一些（较旧的）测试结果不可靠，因为它们使用软件本地化数据（即GNOME系统消息），与包含在训练数据中的其他本地化数据（即Ubuntu系统消息）有很大重叠
所有当前模型都是在没有过滤、数据增强（如反向翻译）和领域适应以及其他优化程序的情况下训练的；除了基于自动选择的测试集的自动评估外，没有质量控制；对于某些语言对，至少还有来自官方WMT测试集的基准分数
大多数模型在1或4个GPU上最多训练72小时；并非所有模型都在此时间限制内收敛
验证和早停基于自动选择的验证数据，通常来自Tatoeba；验证数据对许多应用来说并不具有代表性

待办事项和愿望清单

更多语言和语言对
更好和更多语言的模型
优化翻译性能
添加反向翻译数据
特定领域模型
支持GPU的容器
容器化微调
文档级模型
负载均衡和其他服务优化
公共机器翻译服务网络
反馈循环和个性化

链接和相关工作

OPUS-translator：简单在线翻译界面的实现
OPUS-CAT：可运行OPUS-MT模型的Trados Studio NMT插件实现
fiskmö：开发芬兰语和瑞典语之间翻译资源和工具的项目
The Tatoeba MT Challenge，包含大量预训练NMT模型
The NMT map：在地图上绘制Tatoeba NMT模型状态
The OPUS-MT leaderboard
使用zero工具包在OPUS-100上训练的预训练多语言模型

致谢

这项工作得到了European Language Grid的支持，作为试点项目2866，由欧洲研究理事会（ERC）在欧盟Horizon 2020研究创新计划下资助的FoTran项目（拨款协议编号771113），以及由欧盟Horizon 2020研究创新计划资助的MeMAD项目（拨款协议编号780069）。我们也感谢CSC -- IT Center for Science，芬兰提供的慷慨计算资源和IT基础设施。