MS MARCO Web Search - 包含数百万真实点击标签的网页数据集

github2024-05-31 收录

下载链接：

https://github.com/microsoft/MS-MARCO-Web-Search

下载链接

链接失效反馈

官方服务：

资源简介：

MS MARCO Web Search是微软发布的一个大规模、信息丰富的网页数据集。该数据集包含约10亿个高质量网页，源自ClueWeb22，这些网页不仅包括纯文本，还有视觉元素、HTML结构、语义标注等，覆盖207种语言，同时包含1000万个独特查询和数百万带有相关标签的查询-文档对，这些数据来自微软Bing搜索引擎的搜索日志。MS MARCO Web Search提供了100M和10B两种规模的数据集。该数据集可以帮助研究人员开发出更好的搜索引擎和信息检索系统，以及训练和测试大型语义理解模型，使其更精准把握用户搜索意图和文档内容。

MS MARCO Web Search is a large-scale, information-rich web dataset released by Microsoft. This dataset contains approximately 1 billion high-quality web pages sourced from ClueWeb22, which include not only plain text but also visual elements, HTML structures, semantic annotations, and more, covering 207 languages. It also includes 10 million unique queries and millions of query-document pairs with relevance labels, derived from the search logs of Microsoft's Bing search engine. MS MARCO Web Search offers datasets in two scales: 100M and 10B. This dataset can assist researchers in developing better search engines and information retrieval systems, as well as in training and testing large semantic understanding models to more accurately capture user search intents and document content.

提供机构：

微软

原始信息汇总

MS MARCO Web Search 数据集概述

数据集简介

MS MARCO Web Search 是一个大规模的信息丰富的网络数据集，包含数百万个真实的点击查询-文档标签。该数据集紧密模拟了真实世界的网络文档和查询分布，为各种下游任务提供了丰富的信息。数据集整合了最大的开放网络文档数据集 ClueWeb22，包含约100亿个高质量网页，以及1000万个来自93种语言的独特查询，这些查询与数百万个相关标记的查询-文档对一起，从Microsoft Bing搜索引擎的搜索日志中收集。

数据集任务

该数据集提供了三个主要的网络检索挑战任务：

嵌入模型排名任务：关注嵌入模型排名，要求在大型网络数据量下保证足够的知识覆盖。评估指标包括平均倒数排名（MRR）、召回率、吞吐量（QPS）和延迟。
嵌入检索排名任务：关注嵌入检索算法/系统的性能和准确性，评估近似最近邻（ANN）召回率、吞吐量和延迟。
端到端检索排名任务：比较不同解决方案的结果质量和系统性能，包括嵌入模型加ANN系统、倒排索引解决方案、混合解决方案、神经索引器和大语言模型等。

数据集内容

100M数据集

ClueWeb22集合：包含100亿个网页。
文档ID映射：提供ClueWeb22中的文档ID映射。
训练、开发和测试集：包含查询和相关性标签。
文档和查询嵌入向量：用于嵌入检索任务。

10B数据集

ClueWeb22集合：包含100亿个网页。
训练、开发和测试集：包含查询和相关性标签，用于验证方法在大型数据集上的有效性。

使用条款

数据集仅供非商业研究目的使用，使用时需遵守相关条款和条件，包括但不限于禁止使用外部数据集进行提交。

搜集汇总

数据集介绍

构建方式

MS MARCO Web Search数据集的构建采用了大规模的ClueWeb22作为文档语料库，该语料库包含了大约100亿个高质量的网页。数据集进一步包含了来自微软Bing搜索引擎日志的1000万独特查询和数百万相关的查询-文档对标签，以此作为查询集。这种构建方式旨在模拟真实世界的网络文档和查询分布，为各种下游任务提供丰富的信息。

使用方法

使用MS MARCO Web Search数据集时，研究者可以访问其提供的训练集、开发集和测试集，以及相应的查询和文档标签。此外，还包括了文档和查询的嵌入向量，以及嵌入检索的真实标签。使用外部信息是被允许的，但需遵守数据集的使用条款和条件。

背景与挑战

背景概述

MS MARCO Web Search数据集，由Microsoft研究人员于2024年创建，是包含数百万真实点击标签的网页数据集。该数据集紧密模拟真实世界的网页文档和查询分布，为各种下游任务提供了丰富的信息。它采用了最大的开放网页文档数据集ClueWeb22作为文档语料库，包含了大约10亿个高质量网页。此外，MS MARCO Web Search还包含了来自Microsoft Bing搜索引擎搜索日志的1000万独特查询和数百万相关的查询-文档对标签。该数据集在机器学习和信息检索系统研究领域中，对于嵌入模型、嵌入检索以及端到端检索等挑战任务提供了基准测试。

当前挑战

该数据集在研究领域带来了几个挑战：首先，大规模的网页数据量需要大型嵌入模型来保证足够的知识覆盖，这要求在模型的泛化能力和训练/推理速度之间取得平衡；其次，嵌入模型需要与嵌入检索系统协同工作，这要求近似搜索和暴力搜索之间的准确性差距最小化，同时保持良好的系统性能；最后，端到端检索系统的结果质量和性能是比较不同解决方案的最重要指标，这鼓励了各种类型的解决方案，包括嵌入模型加ANN系统、倒排索引解决方案、混合解决方案、神经索引器和大型语言模型等。

常用场景

经典使用场景

MS MARCO Web Search数据集因其规模宏大、信息丰富，被广泛用于模拟真实世界中的网页文档和查询分布。经典的使用场景包括对大规模网页数据集进行嵌入模型训练，以实现对查询的快速、准确的响应。该数据集支持嵌入模型、嵌入检索和端到端检索三种挑战任务，研究者可以基于此数据集训练模型，参与竞赛，评估模型在各项指标上的表现。

解决学术问题

该数据集解决了传统小规模数据集无法模拟真实世界网页检索问题的局限性。通过提供数百万真实的点击标签，MS MARCO Web Search使得研究者能够在大规模数据上验证模型的有效性，进而推动学术研究在信息检索、机器学习等领域的发展。它有助于解决如何在大数据环境下实现高效、准确的检索方法的问题。

实际应用

在实际应用中，MS MARCO Web Search数据集可用于提升搜索引擎的检索质量，优化用户搜索体验。企业可以通过该数据集训练更为精准的检索模型，从而在竞争激烈的搜索引擎市场中获得优势。

数据集最近研究