GuoFeng-Webnovel

GuoFeng-Webnovel

多语言网络小说语料库推动机器翻译和语言模型研究

GuoFeng-Webnovel是一个多语言网络小说语料库,包含丰富的语言文化特征和长文本上下文。覆盖14种小说类型,提供中英、中德、中俄等语言对。数据经严格处理和人工校对,可用于机器翻译和语言模型研究。研究人员可在遵守版权规定下免费用于非商业研究。

GuoFeng Webnovel文学翻译多语言语料库网络小说机器翻译Github开源项目
<div align="center"> <img src="https://yellow-cdn.veclightyear.com/0a4dffa0/76c7ee24-6b46-4433-94b1-983d6368a304.jpg" alt="标志" width="600"> </div>

🀄 国风网文:一个篇章级多语言网络小说语料库

<div align="center"> <img src="https://yellow-cdn.veclightyear.com/0a4dffa0/c840dc74-a65c-4531-bf95-a9ab30024d5b.svg" alt="许可证"> <img src="https://img.shields.io/github/stars/longyuewangdcu/GuoFeng-Webnovel?color=yellow" alt="星标数"> <img src="https://img.shields.io/github/issues/longyuewangdcu/GuoFeng-Webnovel?color=red" alt="问题数"> <br>

¹ 腾讯AI实验室,² 阅文集团

<sup>*</sup>王龙跃¹ 为通讯作者:vinnlywang@tencent.com

</div> <div align="left">

国风网文是一个公开版权、高质量、篇章级和多语言的网络小说语料库。其独特之处在于:

  • 丰富的语言和文化现象:文学文本比非文学文本包含更复杂的语言和文化知识。
  • 长距离上下文:小说等文学作品比其他领域的文本具有更长的上下文。
  • 通用人工智能:我们预计这个数据集不仅会推动机器翻译领域的现有研究,还将激发大型语言模型的新颖研究。

新闻 🤩🤩🤩

  • [2024/05/20] 🛰️🛰️🛰️ 国风网文语料库V2已发布:两个篇章级数据集,分别用于中文→德文中文→俄文
  • [2023/05/15] WMT23共享任务:篇章级文学翻译
  • [2024/05/15] 🎉🎉🎉 国风GitHub现已上线 🎉🎉🎉
  • [2023/05/06] 🚀🚀🚀 国风网文语料库V1已发布:一个带有句级对齐的篇章级数据集,用于中文→英文
  • [2023/04/14] WMT23共享任务:篇章级文学翻译

国风网文语料库概览 💕

该数据集涵盖了14个流派,如奇幻科幻和言情。详细统计如下。

<div align="center"> <img src="https://yellow-cdn.veclightyear.com/0a4dffa0/6f2c6467-c9d7-4772-a91a-56fc06e765b2.jpg" alt="领域" width="600"> </div>

不同语言的高频词词云图如下所示。

<div align="center"> <img src="https://yellow-cdn.veclightyear.com/0a4dffa0/fb79497a-1556-421c-8560-128fd82e097f.png" alt="词" width="800"> </div>

从中英文数据集中抽样的数据示例,彩色词汇展示了丰富的语言现象。

<div align="center"> <img src="https://yellow-cdn.veclightyear.com/0a4dffa0/360c8db3-5c37-4745-a95c-39a11bdea164.png" alt="词" width="500"> </div>

版权和许可

版权是发布文学文本时的一个重要考虑因素,我们(腾讯AI实验室和阅文集团)是本数据集中网络小说的合法版权所有者。我们很高兴能在特定条款和条件下向研究社区提供这些数据。

  • 🔔 国风网文语料库的版权归腾讯AI实验室和阅文集团所有。
  • 🚦 完成注册流程并提供机构信息后,WMT参与者或研究人员获准仅将数据集用于非商业研究目的,并须遵守合理使用原则(CC-BY 4.0)。
  • 🔒 严禁修改或重新分发数据集。如果您计划对数据集进行任何更改(如添加更多注释)并打算公开发布,请先联系我们获得书面同意。
  • 🚧 使用本数据集即表示您同意上述条款和条件。我们严正对待版权侵犯行为,将对任何未经授权使用我们数据的行为采取法律行动。

引用 ❗❗❗

📝 如果您使用国风网文语料库,请引用以下论文并声明原始下载链接:

@inproceedings{wang2023findings, title={Findings of the WMT 2023 Shared Task on Discourse-Level Literary Translation: A Fresh Orb in the Cosmos of LLMs}, author={Wang, Longyue and Tu, Zhaopeng and Gu, Yan and Liu, Siyou and Yu, Dian and Ma, Qingsong and Lyu, Chenyang and Zhou, Liting and Liu, Chao-Hong and Ma, Yufeng and others}, booktitle={Proceedings of the Eighth Conference on Machine Translation}, pages={55--67}, year={2023} } @inproceedings{wang2024findings, title={Findings of the WMT 2024 Shared Task on Discourse-Level Literary Translation}, author={Wang, Longyue and Liu, Siyou and Wu, Minghao and Jiao, Wenxiang and Wang, Xing and Xu, Jiahao and Tu, Zhaopeng and Zhou, Liting and Gu, Yan and Chen, Weiyu and Koehn, Philipp and Way, Andy and Yuan, Yulin}, booktitle={Proceedings of the Ninth Conference on Machine Translation}, year={2024} } 下载链接:https://github.com/longyuewangdcu/GuoFeng-Webnovel

数据处理

💌 网络小说最初由小说作者用中文创作,然后由专业译者翻译成其他语言。以中英文为例,我们使用自动和人工方法处理数据:

  1. 我们根据双语标题匹配中文书籍及其英文对应版本;
  2. 在每本书中,中英文章节根据章节ID号对齐;
  3. 在每个章节内,我们构建了一个基于机器翻译的句子对齐器,以平行方式对齐句子,保持章节中的句子顺序;
  4. 人工注释员参与审查并纠正句子级对齐中的任何差异。

💡 请注意:

  1. 由于人工译者以文档方式翻译小说,某些句子可能没有对应的翻译;
  2. 对于中德和中俄,我们目前跳过了3~4步,仅保留章节级平行数据。当前版本可能包含一些翻译错误,如误译。
<div align="center"> <img src="https://yellow-cdn.veclightyear.com/0a4dffa0/e4839cea-9dcf-4de6-bd73-57c0ea327767.jpg" alt="标志" width="300"> </div> ## 数据描述(国风网络小说语料库V1)1️⃣

中文→英文

我们发布了来自179部网络小说的22,567个连续章节,涵盖奇幻科幻和言情等14个流派。**数据为文档级别,并包含跨句对齐信息。**数据统计如下:

表1书籍章节句子备注
训练集17922,5671,939,18714个流派
验证集112222,755与训练集相同书籍
测试集112622,697与训练集相同书籍
验证集221010,853与训练集不同书籍
测试集221212,917与训练集不同书籍
测试输入---待定

数据格式 💾

以"train.en"为例,数据格式如下:**<BOOK id=""> </BOOK>表示一本书的边界,其中包含多个连续章节,用<CHAPTER id=""> </CHAPTER>**标签标记。内容被分割成句子,并手动与"train.zh"中的中文句子对齐。

<BOOK id="100-jdxx"> <CHAPTER id="jdxx_0001"> 第1章 做出选择吧,年轻人 "崩塌现实,粉碎灵魂。通过放逐这个世界,遵循血之契约,我将召唤你,年轻的魔王啊!" 在夕阳下的公园里,一个长相英俊的孩童模样的少年将左手放在胸前,右手伸出,五指张开,仿佛要从掌心释放出惊人的力量。他看起来严肃而庄重。 ... ... </CHAPTER> <CHAPTER id="jdxx_0002"> .... </CHAPTER> </BOOK>

数据描述(国风网络小说语料库V2)2️⃣

我们发布了来自约120部网络小说的约19K个连续章节,涵盖奇幻科幻和言情等14个流派。数据为文档级别,不包含对齐信息。数据统计如下:

中文→德语

子集书籍数量章节数量X语言词数 / 中文字数备注
训练集11819,10125,562,039 / 36,790,01714个流派
验证集--------
测试集--------
测试输入--------

中文→俄语

子集书籍数量章节数量X语言词数 / 中文字数备注
训练集12219,97123,521,169 / 39,074,00714个流派
验证集--------
测试集--------
测试输入--------

数据格式 💾

数据格式:以中德语言对为例,数据格式如下:(1) **1-ac, 2-ccg, ......**表示书籍级别的文件夹。(2) 在"1-ac"文件夹中,15-jlws_0001-CH.txt, 15-jlws_0001-DE.txt, ....是连续的中文和德语章节。(3) 每个文件中没有标签和句级对齐信息

. ├── 1-ac # 书籍ID - 英文标题 │ ├── 15-jlws_0001-CH.txt # 章节ID - 中文 │ ├── 15-jlws_0001-DE.txt # 章节ID - 德语 │ ├── ...... # 更多章节 ├── 2-ccg # 书籍ID - 英文标题 │ ├── 62-xzltq_0002-CH.txt # 章节ID - 中文 │ ├── 62-xzltq_0002-DE.txt # 章节ID - 德语 │ ├── ...... # 更多章节 ├── ...... # 更多书籍 15-jlws_0001-CH.txt 第一章 李戴 李戴走出考场,穿梭在密密麻麻的人群当中。看着周围那一张张春风得意的脸,耳边响起路人兴高采烈的讨论声,李戴心中却愈加的沮丧。 "哎,考砸了!想进入到面试是肯定没戏了。"李戴揉了揉太阳穴,头脑中那种沉甸甸的感觉却愈发的浓郁。 15-jlws_0001-DE.txt Kapitel 1: Li Dai Li Dai verließ das Prüfungszentrum und bewegte sich durch die dichte Menschenmenge. Er sah die triumphierenden Gesichter um ihn herum und hörte die enthusiastischen Diskussionen der Passanten, doch in seinem Herzen wurde er immer deprimierter. "Oh, ich habe die Prüfung vergeigt! Eine Chance auf ein Vorstellungsgespräch gibt es sicherlich nicht mehr." Li Dai massierte seine Schläfen, das schwere Gefühl in seinem Kopf wurde immer intensiver.

预训练模型 🔢

我们提供三种领域内预训练模型(与去年相同)和大型语言模型(今年新增):

版本层数隐藏大小词表大小持续训练
Chinese-Llama-2-7B32409632000中英文学文本(1150亿词)
RoBERTabase12 enc76821128
中文文学文本(840亿词)mBARTCC2512 enc + 12 dec1024250000

下载 ⏬

数据下载 👨‍👩

国风网络小说语料库V1和V2可以通过Github下载:(1) 前往"下载"部分并点击按钮;(2) 填写注册表单,您将在最后一页获得链接。 🎈 <a href="https://forms.gle/YqJPkfLgGmACbnbU6" style="text-decoration: none;"> <button style="background-color: #4CAF50; color: white; padding: 10px 20px; text-align: center; text-decoration: none; display: inline-block; font-size: 16px; margin: 4px 2px; cursor: pointer; border: none; border-radius: 8px;"> 下载国风网文语料库(通过谷歌表单和Dropbox) </button>🎈 </a> <br> 🎈 <a href="https://docs.qq.com/form/page/DSUxDa1F3VWFmbnVT" style="text-decoration: none;"> <button style="background-color: #4CAF50; color: white; padding: 10px 20px; text-align: center; text-decoration: none; display: inline-block; font-size: 16px; margin: 4px 2px; cursor: pointer; border: none; border-radius: 8px;"> 下载国风网文语料库(通过腾讯表单和微云) </button>🎈 </a>

模型下载 🤖

🎈 <a href="https://github.com/longyuewangdcu/Chinese-Llama-2" style="text-decoration: none;"> <button style="background-color: #4CAF50; color: white; padding: 10px 20px; text-align: center; text-decoration: none; display: inline-block; font-size: 16px; margin: 4px 2px; cursor: pointer; border: none; border-radius: 8px;"> 下载中文Llama-2 </button> </a>🎈 <br> 🎈 <a href="https://www.dropbox.com/sh/1qvukp4cmhp36t4/AABKjGLa9rmDs-NQkA0zWHoKa?Submit=Click+here+to+download+the+models" style="text-decoration: none;"> <button style="background-color: #4CAF50; color: white; padding: 10px 20px; text-align: center; text-decoration: none; display: inline-block; font-size: 16px; margin: 4px 2px; cursor: pointer; border: none; border-radius: 8px;"> 下载RoBERTa和mBART </button> </a> 🎈

委员会

数据团队 🧑🏻‍💼

王龙跃* (vincentwang0229@gmail.com (腾讯AI实验室)
屠兆鹏 (腾讯AI实验室)
顾言 (阅文集团)
陈伟宇 (阅文集团)

技术团队 🧑‍🏫

徐家浩 (腾讯AI实验室)
焦文翔 (腾讯AI实验室)
王翔 (腾讯AI实验室)

联系方式 ☎️

如果您有任何进一步的问题或建议,请随时发送电子邮件至王龙跃 (vincentwang0229@gmail.comvinnylywang@tencent.com)

赞助商 🙏🙏🙏

<div align="center"> <img src="https://yellow-cdn.veclightyear.com/0a4dffa0/0996ff8f-187e-41c3-960b-16557212ba2d.png" alt="Logo" width="250"> <img src="https://yellow-cdn.veclightyear.com/0a4dffa0/92dbf9fb-e2ef-4b82-b03b-f29a58c32eca.png" alt="Logo" width="250"> </div>

星标历史

星标历史图表

编辑推荐精选

扣子-AI办公

扣子-AI办公

职场AI,就用扣子

AI办公助手,复杂任务高效处理。办公效率低?扣子空间AI助手支持播客生成、PPT制作、网页开发及报告写作,覆盖科研、商业、舆情等领域的专家Agent 7x24小时响应,生活工作无缝切换,提升50%效率!

堆友

堆友

多风格AI绘画神器

堆友平台由阿里巴巴设计团队创建,作为一款AI驱动的设计工具,专为设计师提供一站式增长服务。功能覆盖海量3D素材、AI绘画、实时渲染以及专业抠图,显著提升设计品质和效率。平台不仅提供工具,还是一个促进创意交流和个人发展的空间,界面友好,适合所有级别的设计师和创意工作者。

图像生成AI工具AI反应堆AI工具箱AI绘画GOAI艺术字堆友相机AI图像热门
码上飞

码上飞

零代码AI应用开发平台

零代码AI应用开发平台,用户只需一句话简单描述需求,AI能自动生成小程序、APP或H5网页应用,无需编写代码。

Vora

Vora

免费创建高清无水印Sora视频

Vora是一个免费创建高清无水印Sora视频的AI工具

Refly.AI

Refly.AI

最适合小白的AI自动化工作流平台

无需编码,轻松生成可复用、可变现的AI自动化工作流

酷表ChatExcel

酷表ChatExcel

大模型驱动的Excel数据处理工具

基于大模型交互的表格处理系统,允许用户通过对话方式完成数据整理和可视化分析。系统采用机器学习算法解析用户指令,自动执行排序、公式计算和数据透视等操作,支持多种文件格式导入导出。数据处理响应速度保持在0.8秒以内,支持超过100万行数据的即时分析。

AI工具酷表ChatExcelAI智能客服AI营销产品使用教程
TRAE编程

TRAE编程

AI辅助编程,代码自动修复

Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能,是提升开发效率的理想工具。

AI工具TraeAI IDE协作生产力转型热门
AIWritePaper论文写作

AIWritePaper论文写作

AI论文写作指导平台

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

AI辅助写作AI工具AI论文工具论文写作智能生成大纲数据安全AI助手热门
博思AIPPT

博思AIPPT

AI一键生成PPT,就用博思AIPPT!

博思AIPPT,新一代的AI生成PPT平台,支持智能生成PPT、AI美化PPT、文本&链接生成PPT、导入Word/PDF/Markdown文档生成PPT等,内置海量精美PPT模板,涵盖商务、教育、科技等不同风格,同时针对每个页面提供多种版式,一键自适应切换,完美适配各种办公场景。

AI办公办公工具AI工具博思AIPPTAI生成PPT智能排版海量精品模板AI创作热门
潮际好麦

潮际好麦

AI赋能电商视觉革命,一站式智能商拍平台

潮际好麦深耕服装行业,是国内AI试衣效果最好的软件。使用先进AIGC能力为电商卖家批量提供优质的、低成本的商拍图。合作品牌有Shein、Lazada、安踏、百丽等65个国内外头部品牌,以及国内10万+淘宝、天猫、京东等主流平台的品牌商家,为卖家节省将近85%的出图成本,提升约3倍出图效率,让品牌能够快速上架。

下拉加载更多