GuoFeng-Webnovel: 一个创新的多语言网络小说语料库

GuoFeng-Webnovel

GuoFeng-Webnovel项目简介

GuoFeng-Webnovel是一个由腾讯AI实验室和阅文集团联合开发的多语言网络小说语料库,旨在推动文学机器翻译领域的研究和发展。该项目的主要目标是为研究人员提供高质量的文学翻译数据,帮助解决文学机器翻译面临的诸多挑战。

如上图所示,来自45个不同地区的研究机构和公司已经下载了GuoFeng-Webnovel数据集,这充分说明该项目和数据集已经引起了广泛的关注和兴趣。

项目背景与意义

文学机器翻译长期以来一直是机器翻译领域的一个难题。与普通文本相比,文学作品通常具有以下特点:

语言表达更加丰富多样,包含大量修辞手法和文化特色词汇
上下文语义关联性强,需要考虑长距离依赖
风格和情感表达的准确传递至关重要
创造性和艺术性的保留是一大挑战

这些特点使得文学机器翻译面临着诸多困难,主要体现在以下几个方面:

训练数据匮乏:现有的大多数文档级数据集主要由新闻文章和技术文档组成,高质量的文学领域平行语料相对稀缺。
丰富的语言现象:文学文本包含比非文学文本更复杂的语言知识,特别是在篇章层面。翻译模型需要理解文本在篇章层面的意图和结构,才能生成连贯一致的输出。
长距离上下文:文学作品通常具有比新闻文章等其他领域更长的上下文。翻译模型需要具备建模长距离上下文的能力,以保持翻译的一致性和词汇选择的准确性。
评估方法不可靠:评估文学翻译不仅需要衡量文本的含义和结构,还需要考虑源语言的微妙之处和复杂性。单一的自动评估方法往往不够可靠。

GuoFeng-Webnovel项目的推出,正是为了应对这些挑战,推动文学机器翻译研究的发展。该项目的主要意义体现在:

提供大规模高质量数据:为研究人员提供珍贵的文学领域平行语料,弥补了该领域数据匮乏的问题。
促进篇章级翻译研究:语料库保留了完整的篇章结构,有助于研究长距离依赖和篇章一致性问题。
推动评估方法创新:项目设计了针对文学翻译的多维度评估标准,为相关研究提供了新的思路。
推动跨学科合作:结合了自然语言处理和文学翻译领域的专业知识,促进了跨学科的交流与合作。

数据集介绍

GuoFeng-Webnovel语料库的主要特点包括:

规模庞大:包含22,567个连续章节,来自179部网络小说,涵盖14个不同的文学体裁。
高质量人工翻译:所有小说均由专业译者翻译,保证了翻译质量。
保留篇章结构:数据集保留了完整的章节和句子级别的文档结构信息。
多语言支持:目前支持中英双语,未来计划扩展到更多语言。

数据集的具体统计信息如下表所示:

数据集	书籍数	章节数	句子数	备注
训练集	179	22,567	1,939,187	涵盖14个文学体裁
验证集1	22	22	755	与训练集相同书籍
测试集1	26	22	697	与训练集相同书籍
验证集2	10	10	853	不同于训练集的书籍
测试集2	12	12	917	不同于训练集的书籍
测试输入	12	239	16,742	不同于训练集的书籍,超长文档

数据格式与使用

GuoFeng-Webnovel数据集采用了结构化的格式,以保留文档级信息。以英文训练集"train.en"为例,数据格式如下:

<BOOK id="100-jdxx">
<CHAPTER id="jdxx_0001">
Chapter 1 Make Your Choice, Youth
"Implode reality, pulverize thy spirit. By banishing this world, comply with the blood pact, I will summon forth thee, O' young Demon King!"
At a park during sunset, a childlike, handsome youth placed his left hand on his chest, while his right hand was stretched out with his fingers wide open, as though he was about to release something amazing from his palm. He looked serious and solemn.
... ...
</CHAPTER>
<CHAPTER id="jdxx_0002">
....
</CHAPTER>
</BOOK>

这种格式设计使得研究人员可以方便地获取书籍、章节等文档级信息,有助于开展篇章级翻译研究。

预训练模型

为了进一步支持研究人员的工作,GuoFeng-Webnovel项目还提供了两种针对文学领域的预训练模型:

领域内RoBERTa (base版本):
- 12层编码器
- 隐藏层大小768
- 词汇表大小21,128
- 使用全词掩码
- 在中文文学文本上进行了持续训练(84B tokens)
领域内mBART (CC25版本):
- 12层编码器和12层解码器
- 隐藏层大小1024
- 词汇表大小250,000
- 在英文和中文文学文本上进行了持续训练(114B tokens)