MS-MARCO-Web-Search

MS-MARCO-Web-Search

大规模网络数据集推动搜索与机器学习研究进展

MS-MARCO-Web-Search是一个基于ClueWeb22的大规模网络数据集,包含数百万真实查询点击标签。它提供丰富的文本、视觉和语义信息,设置了嵌入模型、嵌入检索和端到端检索三个挑战任务。该数据集旨在推动机器学习和信息检索系统研究,并验证方法在大规模数据上的有效性。

MS MARCO Web Search数据集信息检索机器学习搜索引擎Github开源项目

MS MARCO Web搜索数据集

简介

MS MARCO Web搜索是一个大规模信息丰富的Web数据集,包含数百万个真实的点击查询-文档标签。该数据集密切模仿真实世界的网页文档和查询分布,为各种下游任务提供丰富信息。它将最大的开放网页文档数据集ClueWeb22作为文档集。ClueWeb22包含约100亿个高质量网页,规模足以代表网络规模数据。它还包含来自网页的丰富信息,如网页浏览器渲染的视觉表示、原始HTML结构、干净文本、语义注释、由行业文档理解系统标注的语言和主题标签等。MS MARCO Web搜索还包含来自93种语言的1000万个独特查询,以及从微软必应搜索引擎的搜索日志中收集的数百万个相关标记的查询-文档对,作为查询集。

它提供了一个基于1亿文档集的检索基准,包含三个网络检索挑战任务,要求在机器学习和信息检索系统研究领域进行创新:嵌入模型、嵌入检索和端到端检索挑战。排行榜的主要目标是研究在大量数据可用时,哪些检索方法最有效,哪些检索方法最具成本效益。

此外,MS MARCO Web搜索还为整个100亿文档集提供了5倍于原有的真实点击标签。研究人员可以使用这个数据集来验证在小数据上有效的方法是否也适用于大数据。

引用

如果您使用MS MARCO Web搜索数据集或其衍生数据集,请引用论文

@article{XXX,
title={MS MARCO Web Search: A Large-scale Information-rich Web Dataset with Millions of Real Click Labels},
author={Qi Chen, Xiubo Geng, Corby Rosset, Carolyn Buractaon, Jingwen Lu, Tao Shen, Kun Zhou, Chenyan Xiong, Yeyun Gong1, Paul Bennett, Nick Craswell, Xing Xie, Fan Yang, Bryan Tower, Nikhil Rao, Anlei Dong, Wenqi Jiang, Zheng Liu, Mingqin Li, Chuanjie Liu, Jason Li, Rangan Majumder, Jennifer Neville, Andy Oakley, Knut Magne Risvik, Harsha Vardhan Simhadri, Manik Varma, Yujing Wang, Linjun Yang, Mao Yang, Ce Zhang},
journal={arXiv preprint arXiv:XXX},
year={2024}
}

任务

有三个任务:嵌入模型、嵌入检索和端到端检索排名。

嵌入模型排名任务

第一个任务专注于嵌入模型排名。大规模网络数据量需要大型嵌入模型来保证足够的知识覆盖。它要求平衡以下两个目标:良好的模型泛化能力和高效的训练/推理速度。给定一个查询,您需要根据文档与查询的相关性对全集合中的文档进行排名。您可以为此任务提交最多100个文档。它对嵌入模型质量进行建模。我们评估的指标包括:

  • 平均倒数排名(MRR):第一个正确结果排名的倒数的平均值,广泛用于评估模型质量。
  • 召回率:搜索过程中召回的地面真实项目(测试查询-文档标签)的平均百分比。
  • 吞吐量(QPS):所有查询同时提供,我们测量从向量摄入到使用机器上所有线程输出所有结果之间的挂钟时间。然后将吞吐量计算为每秒处理的查询数(QPS)。
  • 延迟:我们测量在特定QPS下的50、90和99百分位查询延迟。
基线MRR@10recall@1recall@5recall@10recall@20recall@100QPSP50延迟P90延迟P99延迟
DPR0.54245.12%66.04%72.10%76.80%87.54%6989.896 ms10.018 ms11.430 ms
ANCE0.63354.18%75.53%80.53%84.17%91.17%6989.896 ms10.018 ms11.430 ms
SimANS0.64955.86%76.84%81.78%85.23%91.98%6989.896 ms10.018 ms11.430 ms

嵌入检索排名任务

嵌入模型需要与嵌入检索系统协同工作以服务于网络规模数据集。第二个任务专注于嵌入检索算法/系统性能和准确性。我们将一个基线模型生成的嵌入向量作为ANN向量集。这个挑战的目标是呼吁ANN算法创新,以最小化近似搜索和暴力搜索之间的准确性差距,同时仍保持良好的系统性能。在这个任务中,我们只评估ANN召回率(将暴力向量搜索结果作为地面真实值)、吞吐量和延迟。

基线系统ANN召回率@1ANN召回率@10ANN召回率@100每秒查询数P50延迟P90延迟P99延迟
SPANN87.97%80.55%69.84%62510.411毫秒10.873毫秒11.334毫秒
DiskANN91.46%87.07%69.73%269121.968毫秒37.841毫秒69.462毫秒

端到端检索排序任务

在网络场景中,端到端检索系统的结果质量和系统性能是比较不同解决方案时最重要的指标。此挑战任务鼓励各种解决方案,包括嵌入模型加ANN系统、倒排索引解决方案、混合解决方案、神经索引器和大型语言模型等。

基线系统MRR@10召回率@1召回率@5召回率@10召回率@20召回率@100每秒查询数P50延迟P90延迟P99延迟
Elasticsearch BM250.29622.30%39.04%46.00%52.42%63.87%149312.025毫秒1065.141毫秒3745.546毫秒
DPR + SPANN0.46739.21%56.66%61.27%64.69%70.28%62521.924毫秒23.017毫秒34.217毫秒
ANCE+ SPANN0.58049.87%68.59%72.94%75.86%80.18%62521.924毫秒23.017毫秒34.217毫秒
SimANS + SPANN0.58550.63%68.79%73.14%75.85%79.82%62521.924毫秒23.017毫秒34.217毫秒

数据集

<details> <summary>我确认接受条款和许可。点击查看数据集下载链接</summary>

1亿数据集

类型文件名文件大小记录数量格式
ClueWeb22 集合https://lemurproject.org/clueweb22.php/---100亿---
ClueWeb22 中的文档IDdoc_hash_mapping.tsv8.34 GB210,894,832tsv: ClueWeb22中的文档id, 文档id
训练集queries_train.tsv678.36 MB9,206,475tsv: 查询id, 查询, 语言
训练集qrels_train.tsv194.93 MB9,346,695TREC qrels格式
开发集queries_dev.tsv675.2 KB9,253tsv: 查询id, 查询, 语言
开发集qrels_dev.tsv173.19 KB9,402TREC qrels格式
测试集queries_test.tsv734.33 KB9,374tsv: 查询id, 查询, 语言
测试集qrels_test.tsv180.32 KB9,374TREC qrels格式
文档嵌入向量vectors.bin, metaidx.bin, meta.bin289.16GB100,924,960二进制格式
查询嵌入向量vectors.bin, metaidx.bin, meta.bin27.47 MB9,374二进制格式
嵌入检索真值truth.txt7.97 MB9,374真值格式

100亿数据集

描述文件名文件大小记录数量格式
ClueWeb22 集合https://lemurproject.org/clueweb22.php/---100亿---
训练集queries_train.tsv678.36 MB9,206,475tsv: 查询id, 查询, 语言
训练集qrels_train.tsv2.43 GB62,302,553TREC qrels格式
开发集queries_dev.tsv675.2 KB9,253tsv: 查询id, 查询, 语言
开发集qrels_dev.tsv2.35 MB63,314TREC qrels格式
测试集queries_test.tsv734.33 KB9,374tsv: 查询id, 查询, 语言
测试集qrels_test.tsv2.65 MB40,511TREC qrels格式

外部信息的使用

重要提示:在开发您的运行时,您可以使用外部信息。 然而,除了上面列出的数据集外,禁止在您的提交中使用任何其他数据集。 原始的MS MARCO网络搜索数据集揭示了数据集构建方式的一些细微细节,这些细节在真实世界的搜索引擎中是不可用的;因此,应当避免使用。

注意事项

条款和条件

MS MARCO网络搜索数据集仅供非商业研究目的使用,旨在促进人工智能及相关领域的发展,免费提供且不延伸任何许可或其他知识产权。 数据集按"原样"提供,不作任何保证,使用数据存在风险,因为我们可能不拥有文档中的基础权利。 我们不对使用数据集相关的任何损害承担责任。 反馈是自愿提供的,我们可以按我们认为合适的方式使用。 使用任何数据集即表示您自动同意遵守这些条款和条件。 一旦违反任何这些条款,您使用数据集的权利将自动终止。

如果您拥有任何已公开的文档但不希望它们出现在此数据集中,请通过ms-marco-web@microsoft.com与我们联系。 我们将相应地删除数据。 如果您对在产品或服务中使用数据集或任何研究成果有疑问,我们建议您进行独立的法律审查。 如有其他问题,请随时与我们联系。

贡献

本项目欢迎贡献和建议。大多数贡献需要您同意贡献者许可协议(CLA),声明您有权利,并实际授予我们使用您贡献的权利。详情请访问https://cla.opensource.microsoft.com。

当您提交拉取请求时,CLA机器人将自动确定您是否需要提供CLA,并适当装饰PR(例如,状态检查、评论)。只需按照机器人提供的说明操作即可。您只需在所有使用我们CLA的仓库中执行一次此操作。

本项目已采用Microsoft开源行为准则。 有关更多信息,请参阅行为准则常见问题解答或联系opencode@microsoft.com获取任何其他问题或意见。

法律声明

Microsoft和任何贡献者根据知识共享署名4.0国际公共许可证授予您使用本仓库中Microsoft文档和其他内容的许可,请参阅LICENSE-CCA文件,并根据MIT许可证授予您使用仓库中任何代码的许可,请参阅LICENSE文件。

Microsoft "按原样"许可MS MARCO网络搜索标记,不做任何明示或暗示的非侵权声明或保证。您必须在Microsoft要求时立即删除对该标记的所有使用。

文档中提到的Microsoft、Windows、Microsoft Azure和/或其他Microsoft产品和服务可能是Microsoft在美国和/或其他国家的商标或注册商标。 本项目的许可不授予您使用任何Microsoft名称、标志或商标的权利。 Microsoft的一般商标指南可在http://go.microsoft.com/fwlink/?LinkID=254653找到。

隐私信息可在https://privacy.microsoft.com/en-us/找到。

Microsoft和任何贡献者保留所有其他权利,无论是各自的版权、专利或商标下的权利,无论是通过暗示、禁止反言还是其他方式。

编辑推荐精选

堆友

堆友

多风格AI绘画神器

堆友平台由阿里巴巴设计团队创建,作为一款AI驱动的设计工具,专为设计师提供一站式增长服务。功能覆盖海量3D素材、AI绘画、实时渲染以及专业抠图,显著提升设计品质和效率。平台不仅提供工具,还是一个促进创意交流和个人发展的空间,界面友好,适合所有级别的设计师和创意工作者。

图像生成AI工具AI反应堆AI工具箱AI绘画GOAI艺术字堆友相机AI图像热门
码上飞

码上飞

零代码AI应用开发平台

零代码AI应用开发平台,用户只需一句话简单描述需求,AI能自动生成小程序、APP或H5网页应用,无需编写代码。

Vora

Vora

免费创建高清无水印Sora视频

Vora是一个免费创建高清无水印Sora视频的AI工具

Refly.AI

Refly.AI

最适合小白的AI自动化工作流平台

无需编码,轻松生成可复用、可变现的AI自动化工作流

酷表ChatExcel

酷表ChatExcel

大模型驱动的Excel数据处理工具

基于大模型交互的表格处理系统,允许用户通过对话方式完成数据整理和可视化分析。系统采用机器学习算法解析用户指令,自动执行排序、公式计算和数据透视等操作,支持多种文件格式导入导出。数据处理响应速度保持在0.8秒以内,支持超过100万行数据的即时分析。

AI工具酷表ChatExcelAI智能客服AI营销产品使用教程
TRAE编程

TRAE编程

AI辅助编程,代码自动修复

Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能,是提升开发效率的理想工具。

AI工具TraeAI IDE协作生产力转型热门
AIWritePaper论文写作

AIWritePaper论文写作

AI论文写作指导平台

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

AI辅助写作AI工具AI论文工具论文写作智能生成大纲数据安全AI助手热门
博思AIPPT

博思AIPPT

AI一键生成PPT,就用博思AIPPT!

博思AIPPT,新一代的AI生成PPT平台,支持智能生成PPT、AI美化PPT、文本&链接生成PPT、导入Word/PDF/Markdown文档生成PPT等,内置海量精美PPT模板,涵盖商务、教育、科技等不同风格,同时针对每个页面提供多种版式,一键自适应切换,完美适配各种办公场景。

AI办公办公工具AI工具博思AIPPTAI生成PPT智能排版海量精品模板AI创作热门
潮际好麦

潮际好麦

AI赋能电商视觉革命,一站式智能商拍平台

潮际好麦深耕服装行业,是国内AI试衣效果最好的软件。使用先进AIGC能力为电商卖家批量提供优质的、低成本的商拍图。合作品牌有Shein、Lazada、安踏、百丽等65个国内外头部品牌,以及国内10万+淘宝、天猫、京东等主流平台的品牌商家,为卖家节省将近85%的出图成本,提升约3倍出图效率,让品牌能够快速上架。

iTerms

iTerms

企业专属的AI法律顾问

iTerms是法大大集团旗下法律子品牌,基于最先进的大语言模型(LLM)、专业的法律知识库和强大的智能体架构,帮助企业扫清合规障碍,筑牢风控防线,成为您企业专属的AI法律顾问。

下拉加载更多