WanJuan1.0

WanJuan1.0

开源多模态语料库推动AI模型性能提升

WanJuan1.0是一个开源多模态语料库,包含超过5亿文档、22万图文对的文本、图像和视频数据,总量超2TB。涵盖科技、文学等多领域,经过精细处理和价值观对齐。该语料库已应用于Intern系列大模型训练,显著提升了模型在语义理解、知识问答等任务的表现,可有效增强AI模型的知识内容、逻辑推理和泛化能力。

WanJuan多模态语料库文本数据集图文数据集上海人工智能实验室Github开源项目

实习生 · 万卷多模态语料库

英文🌎|简体中文🀄

图片

实习生 · 万卷1.0

实习生 · 万卷1.0是实习生 · 万卷多模态语料库的首个开源版本,包括文本数据集、图文数据集和视频数据集三个部分,总数据量超过2TB。基于大模型数据联盟构建的语料库,上海人工智能实验室对部分数据进行了精细化清洗、去重和价值观对齐,形成了实习生 · 万卷1.0,具有多元集成、精细处理、价值观对齐、易用高效等四个特点。

  • 在多元集成方面,实习生 · 万卷1.0包含文本、图像和视频等多模态数据,涵盖科技、文学、媒体、教育和法律等多个领域。它在提升知识内容、逻辑推理和泛化能力方面具有显著效果。

  • 在精细处理方面,实习生 · 万卷1.0经过了语言筛选、文本提取、格式规范化、基于规则和模型的数据过滤和清洗、多尺度去重以及数据质量评估等精细的数据处理环节。因此,它能更好地满足后续模型训练的需求。

  • 在价值观对齐方面,在构建实习生 · 万卷1.0的过程中,研究人员注重内容与中国主流价值观的对齐,通过算法和人工评估相结合的方式提高了语料库的纯度。

  • 在易用高效方面,研究人员在实习生 · 万卷1.0中采用了统一的格式,并提供了详细的字段说明和工具指导,使其易于使用且高效。让它可以快速应用于多模态大语言模型(MLLMs)或大语言模型(LLM)的训练。

目前,实习生 · 万卷1.0已应用于实习生多模态和实习生浦语等大模型的训练。通过对高质量语料库的"消化",实习生系列模型在语义理解、知识问答、视觉理解和视觉问答等各种生成任务中表现出色。

论文:https://arxiv.org/pdf/2308.10755.pdf

<br>

实习生 · 万卷1.0 - 文本数据集

  • 简介

实习生 · 万卷1.0文本数据集由网页、百科、图书、专利、教材和试题等不同来源的经过清洗的预训练语料组成。总数据量超过5亿条文档,数据大小超过1TB。该语料库将html、text、pdf和epub等各种格式的数据处理成统一字段的jsonl格式。经过精细化清洗、去重和价值观对齐后,形成了安全可靠、高质量的预训练语料库。

  • 组成

图片

  • 样本
{ "id": "BkORdv3xK7IA0HG7pccr", *诗作[222] 索菲娅·马克思笔记本中的记录 #### 生命 时光飞逝如流水; 逝去的永不归还。 生即是死, 生命不断消逝; 人们奋斗不止, 却难脱困境; 人生路尽, 终归虚无; 事业与追求 湮没于时光潮流。 精灵嘲笑人的事业; 因人欲强烈, 而人生路窄且迷茫; 得意后随之懊悔; 无尽悔恨 藏于心中; 人追求的目标 其实渺小; 若人生局限于此, 不过空虚游戏。 有人自诩不凡, 实则平庸; 此等人命运, 终将自我丑化。 卡尔·马克思 #### 查理大帝 高贵心灵深感动容, 美好心灵欣喜若狂, 如今蒙上阴霾, 野蛮之手亵渎圣洁。 格拉亚山崇高诗人, 曾满怀激情歌颂, 激昂歌声永不磨灭, 诗人沉醉幸福欢乐。 狄摩西尼热情澎湃, 曾滔滔雄辩宣讲, 面对人山人海, 大胆嘲讽菲力浦王。 那是崇高与美, 缪斯神圣光辉笼罩, 令缪斯子孙陶醉, 今被野蛮人摧毁。 查理大帝挥动魔杖, 唤醒缪斯重现光明; 美离开幽深墓穴, 艺术重放光芒。 他改变陈规陋习, 发挥教育神奇力量; 民众安居乐业, 法律成安全保障。 他征战无数, 尸横遍野血染疆场; 雄才大略英勇顽强, 胜利中隐含祸殃; 为善良人类赢得花冠, 胜过一切战功; 他战胜时代蒙昧, 获得崇高奖赏。 在无尽世界历史中, 他将永世不被遗忘, 历史为他编织桂冠, 永不湮没于时代激浪。 卡尔·马克思 1833 #### 莱茵河女神 **叙事诗** (见本卷第885889页) #### 盲女 **叙事诗** (见本卷第852858页) #### 两重天 **乘马车赴柏林途中** (见本卷第475478页) #### 父亲诞辰献诗。1836**(见本卷第845846页)** #### 席勒 **十四行诗两首** (见本卷第846847页) #### 歌德 **十四行诗两首** (见本卷第848849页) #### 女儿 **叙事诗** (见本卷第838841页) Die unglückliche Dame **Erzählgedicht** (Siehe S. 533-537 in diesem Band) Geschrieben von Karl Marx zwischen 1833 und ca. 1837 Erstmals im Original veröffentlicht in Marx-Engels-Gesamtausgabe, 1975, Historisch-kritische Ausgabe, Abteilung I, Band 1 Auf Russisch veröffentlicht in Marx-Engels-Gesamtausgabe, 1975, Moskauer Ausgabe, Band 40 Originalsprache: Deutsch Übersetzt aus Marx-Engels-Gesamtausgabe, 1975, Historisch-kritische Ausgabe, Abteilung I, Band 1 --- **Anmerkung:** [222] Diese Gedichte von Marx wurden von seiner Schwester Sophie in ein Notizbuch kopiert. Neben Marx' Gedichten enthält das Notizbuch auch Gedichte anderer Personen sowie persönliche Aufzeichnungen von Sophie und ihren Freunden und Verwandten. Mit Ausnahme von "Das Leben" und "Karl der Große" sind alle diese Gedichte von Marx in seinen Gedichtsammlungen und Sophies Erinnerungsalbum erschienen. Das Gedicht "Karl der Große" ist auf 1833 datiert, was zeigt, dass Marx bereits in seiner Gymnasialzeit mit dem Dichten begann. "Die blinde Sängerin" ist auf 1835 datiert. Die Gedichte, die Marx zum Geburtstag seines Vaters Heinrich Marx schrieb, müssen spätestens Anfang 1836 entstanden sein. - 913. **- 字段** ** - id:** [字符串类型] 文档的唯一标识符。 ** - content:** [字符串类型] 文档的内容,格式为普通文本格式或Markdown格式。 <br> ## Intern · WanJuan 1.0 - 图文数据集 - 简介 Intern · WanJuan 1.0 - 图文数据集的数据主要来源于公开网页,经过处理形成图文交错的文档。文档总数超过2200万,数据规模超过140GB(不含图片),涵盖新闻事件、人物、自然景观、社会生活等领域。数据采用统一的jsonl格式,其中图片以url形式给出。如需获取图片数据,可使用以下脚本: https://github.com/opendatalab/image-downloader - 组成 ![](https://mmbiz.qpic.cn/sz_mmbiz_png/7yjDpC9UfD7vkz4XTP9dNyQZNeGmJjySTG634PTTIbmFIJlDZUfKGrXYibkgXCU3E58mrZIn0ibW0oia2mUOrv31Q/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1) - 样例 ![](https://mmbiz.qpic.cn/sz_mmbiz_png/7yjDpC9UfD7vkz4XTP9dNyQZNeGmJjySJWLdsY1qx1EAI8xAra8HnEunics0sqTQjNI6VhzM3SdINw3ojvtP9Uw/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1) ```json { "id": "BkKuk1zxK3YAbgNSWYik", "img_list": [ { "url": "https://yellow-cdn.veclightyear.com/835a84d5/18938f7b-4bcd-4ad2-8856-ae548628c906.jpg", "sha256": "019cca88f37ae5ffe59ad48ad5c392fe64e489f08e841b6ea50c79c18f5c6ec3", "caption": "", "width": "400", "height": "266" } ], ![](https://yellow-cdn.veclightyear.com/835a84d5/18938f7b-4bcd-4ad2-8856-ae548628c906.jpg) 百年奋斗之路 启航新征程 走进觉悟社当年社员开会的房间,桌子中间摆放的一盘纸条格外引人注目,周恩来"伍豪"和邓颖超"逸豪"的笔名就诞生于此。 "为了斗争的需要,觉悟社社员们采取抓阄的办法,以号取名。"119日,天津觉悟社纪念馆助理馆员迟爱民讲述了102年前的情景:当时年纪最小的邓颖超抓到了最小数字1号,所以叫"逸豪"。周恩来抓到5号,就取名"伍豪" 时间回到1919年那个思潮澎湃的年代。在天津,以周恩来为代表的一批以天下为己任的先进分子,在众多新思潮中艰难地探索革命真理。通过觉悟社的锻炼和洗礼,其主要成员成长为我国早期的共产主义者。周恩来也在这个时期成为马克思主义的宣传者。 诞生:冲破封建束缚探索革命真理 觉悟社成立于"五四运动"在天津发展到最高潮的阶段。 觉悟社纪念馆中的一张合影,记录下了这一张张充满青春朝气的脸庞。他们神色凝重,目光坚定,这些人就是觉悟社成立之初的部分社员。 "这个比一般学生爱国团体更加严密的组织的成立,源于之前一次赴京请愿斗争。"迟爱民介绍,191992日,周恩来等天津各界联合会、学生联合会、女界爱国同志会的先进青年在返津途中,经过交流,一致认为,应该成立一个研究新思潮,探索革命真理,冲破封建习俗束缚,由男女同学共同组建的团体。 1919916日,在天津东南角草场庵天津学生联合会办公室里,革命青年团体觉悟社诞生了。出席成立会的男女各10名成员成为最初的社员,包括周恩来、邓颖超、马骏、刘清扬、郭隆真等。 周恩来执笔起草了《觉悟的宣言》。觉悟社成立后,以"革心""革新"的精神组织演讲,出版刊物《觉悟》,探讨研究新思潮,很快就成为天津学生爱国运动的中坚力量。 引领:觉悟社成立5天后李大钊应邀前来 在波澜起伏的斗争中,周恩来和觉悟社社员们迫切感到,要用先进思想武装头脑。 觉悟社社员谌小岑曾回忆道,在觉悟社成立后第5天,我国最早的马克思主义者、中国共产党先驱李大钊就应邀到觉悟社座谈。李大钊听完邓颖超对觉悟社的介绍后,对觉悟社深表赞许,他表示"觉悟社是男女平等、社交公开的先行" 在李大钊的启发下,觉悟社成员阅读了李大钊发表在《新青年》上的《庶民的胜利》《布尔什维主义的胜利》《我的马克思主义观》等文章。还邀请徐谦、包世杰、钱玄同、刘半农等来演讲,并召开讨论会。 天津市委党校文史教研部副主任徐娜表示,觉悟社社员们学习、讨论中国最早的马列主义文献,并积极投身实践斗争,为他们选择信仰马克思主义、走上共产主义道路进行了最初的启蒙与引导。 影响:觉悟社多人加入中国共产党 1920129日,在抵制日货的斗争中,周恩来、马骏等人被捕,成立仅4个月的觉悟社受到沉重打击。纪念馆展厅中的两本书《警厅拘留记》和《检厅日录》,记录了青年们斗争的艰难和残酷。身陷囹圄的周恩来先后用6个晚上,向狱友介绍马克思主义学说。出狱后,编写了3.5万字的《警厅拘留记》和《检厅日录》。在后来旅法期间,周恩来说"我的思想是颤动于狱中",可以说这是周 这是周恩来马克思主义世界观形成的重要时期。 192011月,随着周恩来、刘清扬、郭隆真等人前往法国勤工俭学,觉悟社的社员们开始分散,觉悟社的集体活动也随之停止…… 尽管觉悟社存在的时间不长,但为一批年轻人树立马克思主义信仰奠定了坚实基础。徐娜表示,作为"五四"运动爆发后在天津影响最广泛、作用最突出的进步学生组织,觉悟社表现出反对封建主义、憎恨一切剥削和压迫的进步思想,为接受马克思主义做好了准备。随后,远赴欧洲勤工俭学的周恩来加入了中国共产党八个发起组之一的巴黎共产主义小组,成为中国共产党创建人之一。而其他觉悟社主要社员如马骏、邓颖超、郭隆真等也都加入了中国共产党,成为革命的骨干力量。 - 字段 - id: [字符串类型] 文档的唯一ID。 - img_list: [数组类型], 文档中包含的图片列表。每张图片的信息包括网络url、url的sha256、长度和宽度。 - content: [字符串类型] 文档的内容,格式为普通文本格式或Markdown格式。 <br> ## Intern · 万卷1.0 - 视频数据集 - 简介 Intern · 万卷1.0视频数据集主要来自中央广播电视总台和上海广播电视台。它包含各类节目视频,有1000多个视频文件,数据大小超过900GB。内容涵盖军事、文艺、体育、自然、真实社会、知识、视频艺术、媒体、美食、历史纪录片、科教等。 - 组成 ![图片](https://mmbiz.qpic.cn/sz_mmbiz_png/7yjDpC9UfD7vkz4XTP9dNyQZNeGmJjySQnSGLrzp6tUVn2P5kZ5RuERiaibf5vSFibJUZtFWhT8rZmaslBTjicBI4Q/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1) - 示例 ![](https://mmbiz.qpic.cn/sz_mmbiz_png/7yjDpC9UfD7vkz4XTP9dNyQZNeGmJjyS9H6XnjNibfo5DJh7hscAGmeSvJ6ohVgnBAKk2blTSVIqNUKXicQ8984g/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1) ## 下载链接 要下载完整数据集,请访问: [https://opendatalab.org.cn/WanJuan1.0](https://opendatalab.org.cn/OpenDataLab/WanJuan1_dot_0/tree/main?source=R2l0aHVi) ## 许可证 整个Intern · 万卷1.0采用CC BY 4.0许可协议。您可以自由分享和改编该数据集,但需遵守以下条件: - 署名:您必须给予适当的署名,提供指向协议的链接,并说明是否对原始数据集进行了修改。您可以以任何合理的方式这样做,但不得以任何方式暗示许可人认可您或您的使用。 - 不得增加额外限制:您不得使用法律条款或技术措施来限制他人做协议允许的任何事情。 有关协议的完整内容,请访问[CC BY 4.0协议全文](https://creativecommons.org/licenses/by/4.0/)。 ## 特别注意事项 请注意,该数据集的某些子集可能受其他协议约束。在使用特定子集之前,请务必仔细阅读相关协议,以确保合规使用。有关更详细的协议信息,请查看特定子集的相关文档或元数据。 作为非营利组织,OpenDataLab倡导和谐友好的开源交流环境。如果您在开源数据集中发现任何侵犯您合法权益的内容,可以发送邮件至(OpenDataLab@pjlab.org.cn),请在邮件中说明相关侵权事实的详细描述,并向我们提供相关所有权证明材料。我们将在3个工作日内启动调查处理机制,并采取必要措施处理(如下所列)。但您应确保投诉的真实性,否则应自行承担采取措施后的不利后果。 ## 更新日志

2023-10-20:安全升级:进一步清理和提高语料库的纯度,升级后总文件大小为2047.6GB

2023-08-14:首次发布


## 引用

@misc{he2023wanjuan, title={WanJuan: A Comprehensive Multimodal Dataset for Advancing English and Chinese Large Models}, author={Conghui He and Zhenjiang Jin and Chao Xu and Jiantao Qiu and Bin Wang and Wei Li and Hang Yan and Jiaqi Wang and Dahua Lin}, year={2023}, eprint={2308.10755}, archivePrefix={arXiv}, primaryClass={cs.CL} }

编辑推荐精选

Keevx

Keevx

AI数字人视频创作平台

Keevx 一款开箱即用的AI数字人视频创作平台,广泛适用于电商广告、企业培训与社媒宣传,让全球企业与个人创作者无需拍摄剪辑,就能快速生成多语言、高质量的专业视频。

即梦AI

即梦AI

一站式AI创作平台

提供 AI 驱动的图片、视频生成及数字人等功能,助力创意创作

扣子-AI办公

扣子-AI办公

AI办公助手,复杂任务高效处理

AI办公助手,复杂任务高效处理。办公效率低?扣子空间AI助手支持播客生成、PPT制作、网页开发及报告写作,覆盖科研、商业、舆情等领域的专家Agent 7x24小时响应,生活工作无缝切换,提升50%效率!

TRAE编程

TRAE编程

AI辅助编程,代码自动修复

Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能,是提升开发效率的理想工具。

AI工具TraeAI IDE协作生产力转型热门
蛙蛙写作

蛙蛙写作

AI小说写作助手,一站式润色、改写、扩写

蛙蛙写作—国内先进的AI写作平台,涵盖小说、学术、社交媒体等多场景。提供续写、改写、润色等功能,助力创作者高效优化写作流程。界面简洁,功能全面,适合各类写作者提升内容品质和工作效率。

AI辅助写作AI工具蛙蛙写作AI写作工具学术助手办公助手营销助手AI助手
问小白

问小白

全能AI智能助手,随时解答生活与工作的多样问题

问小白,由元石科技研发的AI智能助手,快速准确地解答各种生活和工作问题,包括但不限于搜索、规划和社交互动,帮助用户在日常生活中提高效率,轻松管理个人事务。

热门AI助手AI对话AI工具聊天机器人
Transly

Transly

实时语音翻译/同声传译工具

Transly是一个多场景的AI大语言模型驱动的同声传译、专业翻译助手,它拥有超精准的音频识别翻译能力,几乎零延迟的使用体验和支持多国语言可以让你带它走遍全球,无论你是留学生、商务人士、韩剧美剧爱好者,还是出国游玩、多国会议、跨国追星等等,都可以满足你所有需要同传的场景需求,线上线下通用,扫除语言障碍,让全世界的语言交流不再有国界。

讯飞智文

讯飞智文

一键生成PPT和Word,让学习生活更轻松

讯飞智文是一个利用 AI 技术的项目,能够帮助用户生成 PPT 以及各类文档。无论是商业领域的市场分析报告、年度目标制定,还是学生群体的职业生涯规划、实习避坑指南,亦或是活动策划、旅游攻略等内容,它都能提供支持,帮助用户精准表达,轻松呈现各种信息。

AI办公办公工具AI工具讯飞智文AI在线生成PPTAI撰写助手多语种文档生成AI自动配图热门
讯飞星火

讯飞星火

深度推理能力全新升级,全面对标OpenAI o1

科大讯飞的星火大模型,支持语言理解、知识问答和文本创作等多功能,适用于多种文件和业务场景,提升办公和日常生活的效率。讯飞星火是一个提供丰富智能服务的平台,涵盖科技资讯、图像创作、写作辅助、编程解答、科研文献解读等功能,能为不同需求的用户提供便捷高效的帮助,助力用户轻松获取信息、解决问题,满足多样化使用场景。

热门AI开发模型训练AI工具讯飞星火大模型智能问答内容创作多语种支持智慧生活
Spark-TTS

Spark-TTS

一种基于大语言模型的高效单流解耦语音令牌文本到语音合成模型

Spark-TTS 是一个基于 PyTorch 的开源文本到语音合成项目,由多个知名机构联合参与。该项目提供了高效的 LLM(大语言模型)驱动的语音合成方案,支持语音克隆和语音创建功能,可通过命令行界面(CLI)和 Web UI 两种方式使用。用户可以根据需求调整语音的性别、音高、速度等参数,生成高质量的语音。该项目适用于多种场景,如有声读物制作、智能语音助手开发等。

下拉加载更多