MS MARCO Web Search

arXiv2024-05-13 更新2024-06-21 收录

下载链接：

https://github.com/microsoft/MSMARCO-Web-Search

下载链接

链接失效反馈

官方服务：

资源简介：

MS MARCO Web Search是由微软创建的大型信息丰富的网络数据集，包含数百万真实的点击查询-文档标签。该数据集模拟了真实世界的网络文档和查询分布，提供了丰富的信息用于各种下游任务，并鼓励在多个领域进行研究，如通用端到端神经索引模型、通用嵌入模型和下一代大型语言模型信息访问系统。作为首个满足大数据、真实和丰富数据要求的数据集，MS MARCO Web Search为未来的AI和系统研究提供了关键的数据基础。

MS MARCO Web Search is a large-scale, information-rich web dataset developed by Microsoft, which contains millions of real click-derived query-document labels. This dataset replicates the real-world distribution of web documents and user queries, providing rich resources for a wide range of downstream tasks and facilitating research across multiple domains, including general-purpose end-to-end neural indexing models, general embedding models, and next-generation large language model-driven information access systems. As the first dataset that meets the criteria of large-scale, authentic, and rich data, MS MARCO Web Search serves as a critical data foundation for future AI and system-related research.

提供机构：

微软

创建时间：

2024-05-13

搜集汇总

数据集介绍

构建方式

MS MARCO Web Search数据集的构建依托于ClueWeb22这一迄今规模最大的开源网页集合，包含约100亿个高质量网页，并整合了来自微软Bing搜索引擎的约1000万条真实用户查询及其点击标签。构建过程中，首先从Bing一年的搜索日志中采样查询-文档点击对，经过严格的过滤步骤，剔除包含个人身份信息、不当内容或与ClueWeb22文档集无点击关联的查询。随后，基于时间维度将数据划分为训练集和测试集，模拟现实场景中利用历史数据训练模型以服务未来查询的模式。为兼顾训练效率，数据集提供了100M和10B两种规模，其中100M数据集随机选自10B集合，并确保训练与测试文档集不重叠，以评估模型的泛化能力。

特点

该数据集的核心特点在于其大规模、真实性与信息丰富性的统一。它首次在公开数据集中实现了百亿级网页规模，并保留了网页的多种模态信息，包括原始HTML、渲染后的视觉表示、纯净文本、语义标注及语言和主题标签，为跨模态学习提供了坚实基础。此外，查询集覆盖93种语言，呈现高度偏斜的真实网络分布，有效反映了实际搜索场景中的长尾现象。点击标签源自数千万用户的真实行为，而非人工标注，确保了标签的生态效度。数据集的偏斜特性还促使研究者关注数据中心的优化策略，而非仅依赖模型架构改进。

使用方法

MS MARCO Web Search适用于多种检索相关的研究任务，包括端到端神经索引器、通用嵌入模型以及基于大语言模型的下一代信息访问系统的开发与评估。数据集提供了三个基准挑战：大规模嵌入模型挑战要求平衡模型泛化能力与训练推理效率；嵌入检索算法挑战聚焦于缩小近似最近邻搜索与暴力搜索之间的精度差距；端到端检索系统挑战鼓励探索嵌入模型与检索系统的协同优化。研究者可利用提供的训练集和验证集进行模型训练与调优，并通过按时间划分的测试集评估模型对未见查询和文档的泛化性能。数据集还提供了基于DPR、ANCE和SimANS等先进模型的基线结果，便于横向比较。

背景与挑战

背景概述

随着大语言模型在信息检索领域的广泛应用，如何构建大规模、真实且信息丰富的网络数据集成为推动研究的关键。MS MARCO Web Search 数据集由微软研究院主导，联合卡内基梅隆大学、苏黎世联邦理工学院等机构于2024年发布，旨在解决现有数据集规模小、语言单一、缺乏真实点击标签等问题。该数据集基于ClueWeb22的100亿高质量网页，结合必应搜索引擎的千万级多语言查询及百万级真实点击标签，为通用端到端神经索引模型、通用嵌入模型及下一代大语言模型驱动的信息访问系统提供了坚实的数据基础。其发布标志着网络检索研究迈入大规模、多模态、真实分布的新阶段，对信息检索与人工智能交叉领域具有里程碑式的影响力。

当前挑战

MS MARCO Web Search 面临的挑战涵盖领域问题与构建过程两大层面。在领域问题上，网络规模的数据量要求嵌入模型具备强大的泛化能力与高效训练推理速度，同时嵌入向量分布的高度偏斜（如语言、主题分布不均）导致近似最近邻搜索算法难以在保持系统性能的同时缩小与暴力搜索的精度差距，且端到端检索系统中模型与算法协同优化时易出现性能反转现象。在构建过程中，从必应日志中筛选查询需去除个人身份信息、不当内容及低频查询，这虽保障了隐私与内容健康，却使查询分布与真实网络分布存在细微偏差；此外，文档与查询的多语言分布高度偏斜（如英语占主导），可能引发模型的语言偏见，影响跨语言检索的公平性与鲁棒性。

常用场景

经典使用场景

在信息检索领域，MS MARCO Web Search 数据集的核心用途在于为大规模嵌入模型、近似最近邻搜索算法以及端到端检索系统提供统一的评估基准。研究者可借助该数据集，在包含百亿级网页文档与千万级真实用户点击标签的复杂环境中，系统性地测试模型在高度偏斜的多语言查询分布下的泛化能力与检索精度。其经典场景涵盖从传统的稀疏检索（如BM25）到现代稠密向量检索（如DPR、ANCE、SimANS）的全面对比，尤其适用于验证嵌入模型与索引算法协同工作时的性能衰减问题，从而推动检索系统在真实网络规模下的工程优化。

衍生相关工作

MS MARCO Web Search 的发布催生了一系列前沿研究方向。在嵌入模型方面，研究者基于其多语言、高偏斜特性改进了负样本采样策略，衍生出如SimANS等强调模糊负例的对比学习方法。在近似搜索算法领域，该数据集推动了DiskANN与SPANN等磁盘索引方案在极大规模向量场景下的性能优化，并催生了针对查询-文档分布不对齐问题的距离估计修正技术。此外，端到端检索挑战任务激发了神经索引器（如DSI）、混合检索架构（如SPLADE）以及大模型驱动的检索增强生成（如WebGPT）等创新工作，这些衍生研究共同构建了从数据到系统再到应用的全链路技术生态。

数据集最近研究