¹ 腾讯AI实验室,² 阅文集团
<sup>*</sup>王龙跃¹ 为通讯作者:vinnlywang@tencent.com
</div> <div align="left">国风网文是一个公开版权、高质量、篇章级和多语言的网络小说语料库。其独特之处在于:
该数据集涵盖了14个流派,如奇幻科幻和言情。详细统计如下。
<div align="center"> <img src="https://yellow-cdn.veclightyear.com/0a4dffa0/6f2c6467-c9d7-4772-a91a-56fc06e765b2.jpg" alt="领域" width="600"> </div>不同语言的高频词词云图如下所示。
<div align="center"> <img src="https://yellow-cdn.veclightyear.com/0a4dffa0/fb79497a-1556-421c-8560-128fd82e097f.png" alt="词" width="800"> </div>从中英文数据集中抽样的数据示例,彩色词汇展示了丰富的语言现象。
<div align="center"> <img src="https://yellow-cdn.veclightyear.com/0a4dffa0/360c8db3-5c37-4745-a95c-39a11bdea164.png" alt="词" width="500"> </div>版权是发布文学文本时的一个重要考虑因素,我们(腾讯AI实验室和阅文集团)是本数据集中网络小说的合法版权所有者。我们很高兴能在特定条款和条件下向研究社区提供这些数据。
📝 如果您使用国风网文语料库,请引用以下论文并声明原始下载链接:
@inproceedings{wang2023findings, title={Findings of the WMT 2023 Shared Task on Discourse-Level Literary Translation: A Fresh Orb in the Cosmos of LLMs}, author={Wang, Longyue and Tu, Zhaopeng and Gu, Yan and Liu, Siyou and Yu, Dian and Ma, Qingsong and Lyu, Chenyang and Zhou, Liting and Liu, Chao-Hong and Ma, Yufeng and others}, booktitle={Proceedings of the Eighth Conference on Machine Translation}, pages={55--67}, year={2023} } @inproceedings{wang2024findings, title={Findings of the WMT 2024 Shared Task on Discourse-Level Literary Translation}, author={Wang, Longyue and Liu, Siyou and Wu, Minghao and Jiao, Wenxiang and Wang, Xing and Xu, Jiahao and Tu, Zhaopeng and Zhou, Liting and Gu, Yan and Chen, Weiyu and Koehn, Philipp and Way, Andy and Yuan, Yulin}, booktitle={Proceedings of the Ninth Conference on Machine Translation}, year={2024} } 下载链接:https://github.com/longyuewangdcu/GuoFeng-Webnovel
💌 网络小说最初由小说作者用中文创作,然后由专业译者翻译成其他语言。以中英文为例,我们使用自动和人工方法处理数据:
💡 请注意:
我们发布了来自179部网络小说的22,567个连续章节,涵盖奇幻科幻和言情等14个流派。**数据为文档级别,并包含跨句对齐信息。**数据统计如下:
表1 | 书籍 | 章节 | 句子 | 备注 |
---|---|---|---|---|
训练集 | 179 | 22,567 | 1,939,187 | 14个流派 |
验证集1 | 1 | 22 | 22,755 | 与训练集相同书籍 |
测试集1 | 1 | 26 | 22,697 | 与训练集相同书籍 |
验证集2 | 2 | 10 | 10,853 | 与训练集不同书籍 |
测试集2 | 2 | 12 | 12,917 | 与训练集不同书籍 |
测试输入 | - | - | - | 待定 |
以"train.en"为例,数据格式如下:**<BOOK id=""> </BOOK>表示一本书的边界,其中包含多个连续章节,用<CHAPTER id=""> </CHAPTER>**标签标记。内容被分割成句子,并手动与"train.zh"中的中文句子对齐。
<BOOK id="100-jdxx"> <CHAPTER id="jdxx_0001"> 第1章 做出选择吧,年轻人 "崩塌现实,粉碎灵魂。通过放逐这个世界,遵循血之契约,我将召唤你,年轻的魔王啊!" 在夕阳下的公园里,一个长相英俊的孩童模样的少年将左手放在胸前,右手伸出,五指张开,仿佛要从掌心释放出惊人的力量。他看起来严肃而庄重。 ... ... </CHAPTER> <CHAPTER id="jdxx_0002"> .... </CHAPTER> </BOOK>
我们发布了来自约120部网络小说的约19K个连续章节,涵盖奇幻科幻和言情等14个流派。数据为文档级别,不包含对齐信息。数据统计如下:
中文→德语
子集 | 书籍数量 | 章节数量 | X语言词数 / 中文字数 | 备注 |
---|---|---|---|---|
训练集 | 118 | 19,101 | 25,562,039 / 36,790,017 | 14个流派 |
验证集 | -- | -- | -- | -- |
测试集 | -- | -- | -- | -- |
测试输入 | -- | -- | -- | -- |
中文→俄语
子集 | 书籍数量 | 章节数量 | X语言词数 / 中文字数 | 备注 |
---|---|---|---|---|
训练集 | 122 | 19,971 | 23,521,169 / 39,074,007 | 14个流派 |
验证集 | -- | -- | -- | -- |
测试集 | -- | -- | -- | -- |
测试输入 | -- | -- | -- | -- |
数据格式:以中德语言对为例,数据格式如下:(1) **1-ac, 2-ccg, ......**表示书籍级别的文件夹。(2) 在"1-ac"文件夹中,15-jlws_0001-CH.txt, 15-jlws_0001-DE.txt, ....是连续的中文和德语章节。(3) 每个文件中没有标签和句级对齐信息。
. ├── 1-ac # 书籍ID - 英文标题 │ ├── 15-jlws_0001-CH.txt # 章节ID - 中文 │ ├── 15-jlws_0001-DE.txt # 章节ID - 德语 │ ├── ...... # 更多章节 ├── 2-ccg # 书籍ID - 英文标题 │ ├── 62-xzltq_0002-CH.txt # 章节ID - 中文 │ ├── 62-xzltq_0002-DE.txt # 章节ID - 德语 │ ├── ...... # 更多章节 ├── ...... # 更多书籍 15-jlws_0001-CH.txt 第一章 李戴 李戴走出考场,穿梭在密密麻麻的人群当中。看着周围那一张张春风得意的脸,耳边响起路人兴高采烈的讨论声,李戴心中却愈加的沮丧。 "哎,考砸 了!想进入到面试是肯定没戏了。"李戴揉了揉太阳穴,头脑中那种沉甸甸的感觉却愈发的浓郁。 15-jlws_0001-DE.txt Kapitel 1: Li Dai Li Dai verließ das Prüfungszentrum und bewegte sich durch die dichte Menschenmenge. Er sah die triumphierenden Gesichter um ihn herum und hörte die enthusiastischen Diskussionen der Passanten, doch in seinem Herzen wurde er immer deprimierter. "Oh, ich habe die Prüfung vergeigt! Eine Chance auf ein Vorstellungsgespräch gibt es sicherlich nicht mehr." Li Dai massierte seine Schläfen, das schwere Gefühl in seinem Kopf wurde immer intensiver.
我们提供三种领域内预训练模型(与去年相同)和大型语言模型(今年新增):
版本 | 层数 | 隐藏大小 | 词表大小 | 持续训练 |
---|---|---|---|---|
Chinese-Llama-2-7B | 32 | 4096 | 32000 | 中英文学文本(1150亿词) |
RoBERTa | base | 12 enc | 768 | 21128 |
中文文学文本(840亿词) | mBARTCC25 | 12 enc + 12 dec | 1024 | 250000 |
国风网络小说语料库V1和V2可以通过Github下载:(1) 前往"下载"部分并点击按钮;(2) 填写注册表单,您将在最后一页获得链接。 🎈 <a href="https://forms.gle/YqJPkfLgGmACbnbU6" style="text-decoration: none;"> <button style="background-color: #4CAF50; color: white; padding: 10px 20px; text-align: center; text-decoration: none; display: inline-block; font-size: 16px; margin: 4px 2px; cursor: pointer; border: none; border-radius: 8px;"> 下载国风网文语料库(通过谷歌表单和Dropbox) </button>🎈 </a> <br> 🎈 <a href="https://docs.qq.com/form/page/DSUxDa1F3VWFmbnVT" style="text-decoration: none;"> <button style="background-color: #4CAF50; color: white; padding: 10px 20px; text-align: center; text-decoration: none; display: inline-block; font-size: 16px; margin: 4px 2px; cursor: pointer; border: none; border-radius: 8px;"> 下载国风网文语料库(通过腾讯表单和微云) </button>🎈 </a>
🎈 <a href="https://github.com/longyuewangdcu/Chinese-Llama-2" style="text-decoration: none;"> <button style="background-color: #4CAF50; color: white; padding: 10px 20px; text-align: center; text-decoration: none; display: inline-block; font-size: 16px; margin: 4px 2px; cursor: pointer; border: none; border-radius: 8px;"> 下载中文Llama-2 </button> </a>🎈 <br> 🎈 <a href="https://www.dropbox.com/sh/1qvukp4cmhp36t4/AABKjGLa9rmDs-NQkA0zWHoKa?Submit=Click+here+to+download+the+models" style="text-decoration: none;"> <button style="background-color: #4CAF50; color: white; padding: 10px 20px; text-align: center; text-decoration: none; display: inline-block; font-size: 16px; margin: 4px 2px; cursor: pointer; border: none; border-radius: 8px;"> 下载RoBERTa和mBART </button> </a> 🎈
王龙跃* (vincentwang0229@gmail.com (腾讯AI实验室)
屠兆鹏 (腾讯AI实验室)
顾言 (阅文集团)
陈伟宇 (阅文集团)
徐家浩 (腾讯AI实验室)
焦文翔 (腾讯AI实验室)
王翔 (腾讯AI实验室)
如果您有任何进一步的问题或建议,请随时发送电子邮件至王龙跃 (vincentwang0229@gmail.com 或 vinnylywang@tencent.com)。
AI辅助编程,代码自动修复
Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能,是提升开发效率的理想工具。
AI小说写作助手,一站式润色、改写、扩写
蛙蛙写作—国内先进的AI写作平台,涵盖小说、学术、社交媒体等多场景。提供续写、改写、润色等功能,助力创作者高效优化写作流程。界面简洁,功能全面,适合各类写作者提升内容品质和工作效率。
全能AI智能助手,随时解答生活与工作的多样问题
问小白,由元石科技研发的AI智能助手,快速准确地解答各种生活和工作问题,包括但不限于搜索、规划和社交互动,帮助用户在日常生活中提高效率,轻松管理个人事务。
实时语音翻译/同声传译工具
Transly是一个多场景的AI大语言模型驱动的同声传译、专业翻译助手,它拥有超精准的音频识别翻译能力,几乎零延迟的使用体验和支持多国语言可以让你带它走遍全球,无论你是留学生、商务人士、韩剧美剧爱好者,还是出国游玩、多国会议、跨国追星等等,都可以满足你所有需要同传的场景需求,线上线下通用,扫除语言障碍,让全世界的语言交流不再有国界。
一键生成PPT和Word,让学习生活更轻松
讯飞智文是一个利用 AI 技术的项目,能够帮助用户生成 PPT 以及各类文档。无论是商业领域的市场分析报告、年度目标制定,还是学生群体的职业生涯规划、实习避坑指南,亦或是活动策划、旅游攻略等内容,它都能提供支持,帮助用户精准表达,轻松呈现各种信息。
深度推理能力全新升级,全面对标OpenAI o1
科大讯飞的星火大模型,支持语言理解、知识问答和文本创作等多功能,适用于多种文件和业务场景,提升办公和日常生活的效率。讯飞星火是一个提供丰富智能服务的平台,涵盖科技资讯、图像创作、写作辅助、编程解答、科研文献解读等功能,能为不同需求的用户提供便捷高效的帮助,助力用户轻松获取信息、解决问题,满足多样化使用场景。
一种基于大语言模型的高效单流解耦语音令牌文本到语音合成模型
Spark-TTS 是一个基于 PyTorch 的开源文本到语音合成项目,由多个知名机构联合参与。该项目提供了高效的 LLM(大语言模型)驱动的语音合成方案,支持语音克隆和语音创建功能,可通过命令行界面(CLI)和 Web UI 两种方式使用。用户可以根据需求调整语音的性别、音高、速度等参数,生成高质量的语音。该项目适用于多种场景,如有声读物制作、智能语音助手开发等。
AI助力,做PPT更简单!
咔片是一款轻量化在线演示设计工具,借助 AI 技术,实现从内容生成到智能设计的一站式 PPT 制作服务。支持多种文档格式导入生成 PPT,提供海量模板、智能美化、素材替换等功能,适用于销售、教师、学生等各类人群,能高效制作出高品质 PPT,满足不同场景演示需求。
选题、配图、成文,一站式创作,让内容运营更高效
讯飞绘文,一个AI集成平台,支持写作、选题、配图、排版和发布。高效生成适用于各类媒体的定制内容,加速品牌传播,提升内容营销效果。
专业的AI公文写作平台,公文写作神器
AI 材料星,专业的 AI 公文写作辅助平台,为体制内工作人员提供高效的公文写作解决方案。拥有海量公文文库、9 大核心 AI 功能,支持 30 + 文稿类型生成,助力快速完成领导讲话、工作总结、述职报告等材料,提升办公效率,是体制打工人的得力写作神器。
最新AI工具、AI资讯
独家AI资源、AI项目落地
微信扫一扫关注公众号