MS-MARCO-Web-Search

MS-MARCO-Web-Search

大规模网络数据集推动搜索与机器学习研究进展

MS-MARCO-Web-Search是一个基于ClueWeb22的大规模网络数据集,包含数百万真实查询点击标签。它提供丰富的文本、视觉和语义信息,设置了嵌入模型、嵌入检索和端到端检索三个挑战任务。该数据集旨在推动机器学习和信息检索系统研究,并验证方法在大规模数据上的有效性。

MS MARCO Web Search数据集信息检索机器学习搜索引擎Github开源项目

MS MARCO Web搜索数据集

简介

MS MARCO Web搜索是一个大规模信息丰富的Web数据集,包含数百万个真实的点击查询-文档标签。该数据集密切模仿真实世界的网页文档和查询分布,为各种下游任务提供丰富信息。它将最大的开放网页文档数据集ClueWeb22作为文档集。ClueWeb22包含约100亿个高质量网页,规模足以代表网络规模数据。它还包含来自网页的丰富信息,如网页浏览器渲染的视觉表示、原始HTML结构、干净文本、语义注释、由行业文档理解系统标注的语言和主题标签等。MS MARCO Web搜索还包含来自93种语言的1000万个独特查询,以及从微软必应搜索引擎的搜索日志中收集的数百万个相关标记的查询-文档对,作为查询集。

它提供了一个基于1亿文档集的检索基准,包含三个网络检索挑战任务,要求在机器学习和信息检索系统研究领域进行创新:嵌入模型、嵌入检索和端到端检索挑战。排行榜的主要目标是研究在大量数据可用时,哪些检索方法最有效,哪些检索方法最具成本效益。

此外,MS MARCO Web搜索还为整个100亿文档集提供了5倍于原有的真实点击标签。研究人员可以使用这个数据集来验证在小数据上有效的方法是否也适用于大数据。

引用

如果您使用MS MARCO Web搜索数据集或其衍生数据集,请引用论文

@article{XXX,
title={MS MARCO Web Search: A Large-scale Information-rich Web Dataset with Millions of Real Click Labels},
author={Qi Chen, Xiubo Geng, Corby Rosset, Carolyn Buractaon, Jingwen Lu, Tao Shen, Kun Zhou, Chenyan Xiong, Yeyun Gong1, Paul Bennett, Nick Craswell, Xing Xie, Fan Yang, Bryan Tower, Nikhil Rao, Anlei Dong, Wenqi Jiang, Zheng Liu, Mingqin Li, Chuanjie Liu, Jason Li, Rangan Majumder, Jennifer Neville, Andy Oakley, Knut Magne Risvik, Harsha Vardhan Simhadri, Manik Varma, Yujing Wang, Linjun Yang, Mao Yang, Ce Zhang},
journal={arXiv preprint arXiv:XXX},
year={2024}
}

任务

有三个任务:嵌入模型、嵌入检索和端到端检索排名。

嵌入模型排名任务

第一个任务专注于嵌入模型排名。大规模网络数据量需要大型嵌入模型来保证足够的知识覆盖。它要求平衡以下两个目标:良好的模型泛化能力和高效的训练/推理速度。给定一个查询,您需要根据文档与查询的相关性对全集合中的文档进行排名。您可以为此任务提交最多100个文档。它对嵌入模型质量进行建模。我们评估的指标包括:

  • 平均倒数排名(MRR):第一个正确结果排名的倒数的平均值,广泛用于评估模型质量。
  • 召回率:搜索过程中召回的地面真实项目(测试查询-文档标签)的平均百分比。
  • 吞吐量(QPS):所有查询同时提供,我们测量从向量摄入到使用机器上所有线程输出所有结果之间的挂钟时间。然后将吞吐量计算为每秒处理的查询数(QPS)。
  • 延迟:我们测量在特定QPS下的50、90和99百分位查询延迟。
基线MRR@10recall@1recall@5recall@10recall@20recall@100QPSP50延迟P90延迟P99延迟
DPR0.54245.12%66.04%72.10%76.80%87.54%6989.896 ms10.018 ms11.430 ms
ANCE0.63354.18%75.53%80.53%84.17%91.17%6989.896 ms10.018 ms11.430 ms
SimANS0.64955.86%76.84%81.78%85.23%91.98%6989.896 ms10.018 ms11.430 ms

嵌入检索排名任务

嵌入模型需要与嵌入检索系统协同工作以服务于网络规模数据集。第二个任务专注于嵌入检索算法/系统性能和准确性。我们将一个基线模型生成的嵌入向量作为ANN向量集。这个挑战的目标是呼吁ANN算法创新,以最小化近似搜索和暴力搜索之间的准确性差距,同时仍保持良好的系统性能。在这个任务中,我们只评估ANN召回率(将暴力向量搜索结果作为地面真实值)、吞吐量和延迟。

基线系统ANN召回率@1ANN召回率@10ANN召回率@100每秒查询数P50延迟P90延迟P99延迟
SPANN87.97%80.55%69.84%62510.411毫秒10.873毫秒11.334毫秒
DiskANN91.46%87.07%69.73%269121.968毫秒37.841毫秒69.462毫秒

端到端检索排序任务

在网络场景中,端到端检索系统的结果质量和系统性能是比较不同解决方案时最重要的指标。此挑战任务鼓励各种解决方案,包括嵌入模型加ANN系统、倒排索引解决方案、混合解决方案、神经索引器和大型语言模型等。

基线系统MRR@10召回率@1召回率@5召回率@10召回率@20召回率@100每秒查询数P50延迟P90延迟P99延迟
Elasticsearch BM250.29622.30%39.04%46.00%52.42%63.87%149312.025毫秒1065.141毫秒3745.546毫秒
DPR + SPANN0.46739.21%56.66%61.27%64.69%70.28%62521.924毫秒23.017毫秒34.217毫秒
ANCE+ SPANN0.58049.87%68.59%72.94%75.86%80.18%62521.924毫秒23.017毫秒34.217毫秒
SimANS + SPANN0.58550.63%68.79%73.14%75.85%79.82%62521.924毫秒23.017毫秒34.217毫秒

数据集

<details> <summary>我确认接受条款和许可。点击查看数据集下载链接</summary>

1亿数据集

类型文件名文件大小记录数量格式
ClueWeb22 集合https://lemurproject.org/clueweb22.php/---100亿---
ClueWeb22 中的文档IDdoc_hash_mapping.tsv8.34 GB210,894,832tsv: ClueWeb22中的文档id, 文档id
训练集queries_train.tsv678.36 MB9,206,475tsv: 查询id, 查询, 语言
训练集qrels_train.tsv194.93 MB9,346,695TREC qrels格式
开发集queries_dev.tsv675.2 KB9,253tsv: 查询id, 查询, 语言
开发集qrels_dev.tsv173.19 KB9,402TREC qrels格式
测试集queries_test.tsv734.33 KB9,374tsv: 查询id, 查询, 语言
测试集qrels_test.tsv180.32 KB9,374TREC qrels格式
文档嵌入向量vectors.bin, metaidx.bin, meta.bin289.16GB100,924,960二进制格式
查询嵌入向量vectors.bin, metaidx.bin, meta.bin27.47 MB9,374二进制格式
嵌入检索真值truth.txt7.97 MB9,374真值格式

100亿数据集

描述文件名文件大小记录数量格式
ClueWeb22 集合https://lemurproject.org/clueweb22.php/---100亿---
训练集queries_train.tsv678.36 MB9,206,475tsv: 查询id, 查询, 语言
训练集qrels_train.tsv2.43 GB62,302,553TREC qrels格式
开发集queries_dev.tsv675.2 KB9,253tsv: 查询id, 查询, 语言
开发集qrels_dev.tsv2.35 MB63,314TREC qrels格式
测试集queries_test.tsv734.33 KB9,374tsv: 查询id, 查询, 语言
测试集qrels_test.tsv2.65 MB40,511TREC qrels格式

外部信息的使用

重要提示:在开发您的运行时,您可以使用外部信息。 然而,除了上面列出的数据集外,禁止在您的提交中使用任何其他数据集。 原始的MS MARCO网络搜索数据集揭示了数据集构建方式的一些细微细节,这些细节在真实世界的搜索引擎中是不可用的;因此,应当避免使用。

注意事项

条款和条件

MS MARCO网络搜索数据集仅供非商业研究目的使用,旨在促进人工智能及相关领域的发展,免费提供且不延伸任何许可或其他知识产权。 数据集按"原样"提供,不作任何保证,使用数据存在风险,因为我们可能不拥有文档中的基础权利。 我们不对使用数据集相关的任何损害承担责任。 反馈是自愿提供的,我们可以按我们认为合适的方式使用。 使用任何数据集即表示您自动同意遵守这些条款和条件。 一旦违反任何这些条款,您使用数据集的权利将自动终止。

如果您拥有任何已公开的文档但不希望它们出现在此数据集中,请通过ms-marco-web@microsoft.com与我们联系。 我们将相应地删除数据。 如果您对在产品或服务中使用数据集或任何研究成果有疑问,我们建议您进行独立的法律审查。 如有其他问题,请随时与我们联系。

贡献

本项目欢迎贡献和建议。大多数贡献需要您同意贡献者许可协议(CLA),声明您有权利,并实际授予我们使用您贡献的权利。详情请访问https://cla.opensource.microsoft.com。

当您提交拉取请求时,CLA机器人将自动确定您是否需要提供CLA,并适当装饰PR(例如,状态检查、评论)。只需按照机器人提供的说明操作即可。您只需在所有使用我们CLA的仓库中执行一次此操作。

本项目已采用Microsoft开源行为准则。 有关更多信息,请参阅行为准则常见问题解答或联系opencode@microsoft.com获取任何其他问题或意见。

法律声明

Microsoft和任何贡献者根据知识共享署名4.0国际公共许可证授予您使用本仓库中Microsoft文档和其他内容的许可,请参阅LICENSE-CCA文件,并根据MIT许可证授予您使用仓库中任何代码的许可,请参阅LICENSE文件。

Microsoft "按原样"许可MS MARCO网络搜索标记,不做任何明示或暗示的非侵权声明或保证。您必须在Microsoft要求时立即删除对该标记的所有使用。

文档中提到的Microsoft、Windows、Microsoft Azure和/或其他Microsoft产品和服务可能是Microsoft在美国和/或其他国家的商标或注册商标。 本项目的许可不授予您使用任何Microsoft名称、标志或商标的权利。 Microsoft的一般商标指南可在http://go.microsoft.com/fwlink/?LinkID=254653找到。

隐私信息可在https://privacy.microsoft.com/en-us/找到。

Microsoft和任何贡献者保留所有其他权利,无论是各自的版权、专利或商标下的权利,无论是通过暗示、禁止反言还是其他方式。

编辑推荐精选

讯飞智文

讯飞智文

一键生成PPT和Word,让学习生活更轻松

讯飞智文是一个利用 AI 技术的项目,能够帮助用户生成 PPT 以及各类文档。无论是商业领域的市场分析报告、年度目标制定,还是学生群体的职业生涯规划、实习避坑指南,亦或是活动策划、旅游攻略等内容,它都能提供支持,帮助用户精准表达,轻松呈现各种信息。

AI办公办公工具AI工具讯飞智文AI在线生成PPTAI撰写助手多语种文档生成AI自动配图热门
讯飞星火

讯飞星火

深度推理能力全新升级,全面对标OpenAI o1

科大讯飞的星火大模型,支持语言理解、知识问答和文本创作等多功能,适用于多种文件和业务场景,提升办公和日常生活的效率。讯飞星火是一个提供丰富智能服务的平台,涵盖科技资讯、图像创作、写作辅助、编程解答、科研文献解读等功能,能为不同需求的用户提供便捷高效的帮助,助力用户轻松获取信息、解决问题,满足多样化使用场景。

热门AI开发模型训练AI工具讯飞星火大模型智能问答内容创作多语种支持智慧生活
Spark-TTS

Spark-TTS

一种基于大语言模型的高效单流解耦语音令牌文本到语音合成模型

Spark-TTS 是一个基于 PyTorch 的开源文本到语音合成项目,由多个知名机构联合参与。该项目提供了高效的 LLM(大语言模型)驱动的语音合成方案,支持语音克隆和语音创建功能,可通过命令行界面(CLI)和 Web UI 两种方式使用。用户可以根据需求调整语音的性别、音高、速度等参数,生成高质量的语音。该项目适用于多种场景,如有声读物制作、智能语音助手开发等。

Trae

Trae

字节跳动发布的AI编程神器IDE

Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能,是提升开发效率的理想工具。

AI工具TraeAI IDE协作生产力转型热门
咔片PPT

咔片PPT

AI助力,做PPT更简单!

咔片是一款轻量化在线演示设计工具,借助 AI 技术,实现从内容生成到智能设计的一站式 PPT 制作服务。支持多种文档格式导入生成 PPT,提供海量模板、智能美化、素材替换等功能,适用于销售、教师、学生等各类人群,能高效制作出高品质 PPT,满足不同场景演示需求。

讯飞绘文

讯飞绘文

选题、配图、成文,一站式创作,让内容运营更高效

讯飞绘文,一个AI集成平台,支持写作、选题、配图、排版和发布。高效生成适用于各类媒体的定制内容,加速品牌传播,提升内容营销效果。

热门AI辅助写作AI工具讯飞绘文内容运营AI创作个性化文章多平台分发AI助手
材料星

材料星

专业的AI公文写作平台,公文写作神器

AI 材料星,专业的 AI 公文写作辅助平台,为体制内工作人员提供高效的公文写作解决方案。拥有海量公文文库、9 大核心 AI 功能,支持 30 + 文稿类型生成,助力快速完成领导讲话、工作总结、述职报告等材料,提升办公效率,是体制打工人的得力写作神器。

openai-agents-python

openai-agents-python

OpenAI Agents SDK,助力开发者便捷使用 OpenAI 相关功能。

openai-agents-python 是 OpenAI 推出的一款强大 Python SDK,它为开发者提供了与 OpenAI 模型交互的高效工具,支持工具调用、结果处理、追踪等功能,涵盖多种应用场景,如研究助手、财务研究等,能显著提升开发效率,让开发者更轻松地利用 OpenAI 的技术优势。

Hunyuan3D-2

Hunyuan3D-2

高分辨率纹理 3D 资产生成

Hunyuan3D-2 是腾讯开发的用于 3D 资产生成的强大工具,支持从文本描述、单张图片或多视角图片生成 3D 模型,具备快速形状生成能力,可生成带纹理的高质量 3D 模型,适用于多个领域,为 3D 创作提供了高效解决方案。

3FS

3FS

一个具备存储、管理和客户端操作等多种功能的分布式文件系统相关项目。

3FS 是一个功能强大的分布式文件系统项目,涵盖了存储引擎、元数据管理、客户端工具等多个模块。它支持多种文件操作,如创建文件和目录、设置布局等,同时具备高效的事件循环、节点选择和协程池管理等特性。适用于需要大规模数据存储和管理的场景,能够提高系统的性能和可靠性,是分布式存储领域的优质解决方案。

下拉加载更多