msmarco-scores-ms-marco-MiniLM-L6-v2

Name: msmarco-scores-ms-marco-MiniLM-L6-v2
Creator: Sentence Transformers
Published: 2025-06-24 20:59:20
License: 暂无描述

Hugging Face2025-06-24 更新2025-06-25 收录

下载链接：

https://huggingface.co/datasets/sentence-transformers/msmarco-scores-ms-marco-MiniLM-L6-v2

下载链接

链接失效反馈

官方服务：

资源简介：

MS MARCO数据集是一个大规模的信息检索语料库，基于Bing搜索引擎的真实用户搜索查询创建。该数据集包含1.6亿个使用[cross-encoder/ms-marco-MiniLM-L6-v2](https://huggingface.co/cross-encoder/ms-marco-MiniLM-L6-v2)模型生成的CrossEncoder分数。这些分数是未处理的logits，可以用于使用蒸馏技术微调搜索模型。

提供机构：

Sentence Transformers

创建时间：

2025-06-24

搜集汇总

数据集介绍

构建方式

在信息检索领域，高质量的数据集对于模型训练至关重要。该数据集基于MS MARCO大规模信息检索语料库构建，采用先进的cross-encoder/ms-marco-MiniLM-L6-v2模型对160万条查询-段落对进行评分。通过嵌入模型挖掘负样本，并对查询-答案对进行重新评分，形成pair、triplet和list三种子集，每种子集针对不同研究需求设计了特定的数据结构。

特点

该数据集最显著的特点在于其多维度评分体系。pair子集记录了查询与段落的原始评分；triplet子集通过将查询-答案对随机划分为正负样本组，提供对比学习所需的三元组数据；list子集则按查询ID聚合所有相关段落及其评分。所有评分均以未处理的logits形式保存，保留了模型输出的原始信息，为后续的蒸馏微调提供了充分的数据支持。

使用方法

研究者可利用该数据集进行多种信息检索任务的模型优化。pair子集适用于学习查询-段落相关性；triplet子集可用于训练对比学习模型，通过正负样本的区分提升模型性能；list子集则适合整体评估查询与多个段落的相关性分布。使用时应根据具体任务选择相应子集，并注意评分为未归一化的logits值，必要时可进行标准化处理。

背景与挑战

背景概述

MS MARCO数据集由微软研究院于2016年推出，旨在推动信息检索领域的研究与发展。该数据集基于真实的Bing搜索引擎用户查询构建，涵盖了大规模的查询-文档对，为机器阅读理解、段落排序和问答系统等任务提供了丰富的训练资源。数据集的核心研究问题在于如何有效匹配用户查询与相关文档，其影响力已延伸至自然语言处理和信息检索的多个子领域，成为评估模型性能的重要基准之一。msmarco-scores-ms-marco-MiniLM-L6-v2作为其衍生数据集，通过MiniLM-L6-v2模型生成的交叉编码器分数，进一步优化了检索模型的蒸馏训练过程。

当前挑战

该数据集面临的挑战主要体现在两个方面：在领域问题层面，信息检索任务需要处理查询与文档之间的语义匹配，而真实场景中的查询往往具有多样性和模糊性，如何准确捕捉用户意图并排序相关文档仍是一个开放性问题。在构建过程层面，数据集的规模庞大且需依赖预训练模型生成分数，这带来了计算资源消耗和潜在偏差问题；同时，负样本的挖掘策略可能引入噪声，影响模型训练的稳定性。此外，分数以未处理的logits形式存在，要求使用者具备额外的数据处理能力以充分发挥其价值。

常用场景

经典使用场景

在信息检索领域，msmarco-scores-ms-marco-MiniLM-L6-v2数据集被广泛用于评估和优化检索模型的性能。通过利用该数据集中的查询-段落对及其对应的相似度分数，研究人员能够训练和微调跨编码器模型，以更准确地匹配用户查询与相关文档。这一过程不仅提升了检索系统的精确度，还为后续的模型蒸馏和迁移学习提供了坚实的基础。

解决学术问题

该数据集有效解决了信息检索中的关键问题，如查询-段落相关性评估和负样本挖掘。通过提供大规模的预计算分数，研究人员能够绕过耗时的计算步骤，直接专注于模型优化和算法改进。这不仅加速了实验周期，还为研究社区提供了统一的评估基准，推动了检索技术的标准化和可比性。

衍生相关工作

基于该数据集，研究社区衍生了一系列经典工作，包括跨编码器模型的蒸馏技术和高效负样本挖掘算法。例如，Sentence-BERT和ColBERT等模型通过利用该数据集中的分数，进一步优化了检索性能。这些工作不仅扩展了数据集的应用范围，还为信息检索领域的技术进步提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集