lightonai-embeddings-fine-tuning-reranked-v1

Name: lightonai-embeddings-fine-tuning-reranked-v1
Creator: Sentence Transformers - Cross-Encoders
Published: 2026-05-18 20:45:02
License: 暂无描述

Hugging Face2026-05-18 更新2026-05-21 收录

下载链接：

https://huggingface.co/datasets/cross-encoder/lightonai-embeddings-fine-tuning-reranked-v1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个大规模信息检索与问答基准数据集合，整合了七个知名开源数据集：fiqa、hotpotqa、msmarco、nq、fever、squadv2和trivia。它包含三种核心数据类型：文档（documents）、查询（queries）和相关性评分（scores）。文档数据包括文档ID和文档内容文本，总样本量超过4600万条；查询数据包括查询ID和查询文本，总样本量约110万条；评分数据包括查询ID、候选文档ID列表、对应相关性分数列表以及正例文档ID列表，用于训练和评估检索模型的相关性判断能力。此外，数据集还提供了评分数据的多种变体：scores_merged（合并版本）、scores_subsampled（子采样版本）和scores_merged_subsampled（合并并子采样版本），以适应不同的实验需求。数据规模庞大，总数据集大小从23.8GB到46.3GB不等，适用于信息检索、开放域问答、文档排序和神经网络检索模型（如双编码器、交叉编码器）的训练与评估。

This dataset is a large-scale information retrieval and question answering benchmark collection, integrating seven well-known open-source datasets: fiqa, hotpotqa, msmarco, nq, fever, squadv2, and trivia. It includes three core data types: documents, queries, and relevance scores. The document data consists of document IDs and document content text, with a total sample size exceeding 46 million; the query data includes query IDs and query text, with a total sample size of approximately 1.1 million; the score data comprises query IDs, candidate document ID lists, corresponding relevance score lists, and positive document ID lists, used for training and evaluating the relevance judgment capabilities of retrieval models. Additionally, the dataset provides multiple variants of the score data: scores_merged (merged version), scores_subsampled (subsampled version), and scores_merged_subsampled (merged and subsampled version) to accommodate different experimental needs. The dataset is large-scale, with total sizes ranging from 23.8GB to 46.3GB, and is suitable for training and evaluation in information retrieval, open-domain question answering, document ranking, and neural retrieval models (such as dual encoders and cross encoders).

提供机构：

Sentence Transformers - Cross-Encoders

创建时间：

2026-05-18

搜集汇总

数据集介绍

构建方式

在信息检索与知识蒸馏领域，高质量的重排序教师信号对于提升学生模型性能至关重要。该数据集通过调用强大的`mxbai-rerank-large-v2`交叉编码器，对原始`lightonai/embeddings-fine-tuning`数据集中每一个查询与候选文档对进行重新评分，将产生的原始logits分数作为教师信号存储。数据集划分为`documents`、`queries`以及多个评分配置（`scores`、`scores_merged`、`scores_subsampled`、`scores_merged_subsampled`），每个配置均按检索领域（如`msmarco`、`nq`）分区，支持灵活选取。

使用方法

数据集的使用极为便捷，可通过`load_dataset`函数直观点名加载所需的配置与领域分片。典型用法是将评分数据与查询、文档索引表通过唯一ID进行关联，以构建完整的训练实例。推荐用于点式MSE蒸馏，即将每个`(查询，文档，分数)`三元组作为独立样本，最小化学生对教师logits的均方误差；也可用于列表式或成对式蒸馏，将同一查询的文档列表分组，输入至LambdaLoss、ListNet等排序损失函数中进行优化，从而高效训练出性能优异的重排序学生模型。

背景与挑战

背景概述

在信息检索与自然语言处理领域，重排序（re-ranking）模型作为提升检索精度的关键组件，近年来受到广泛关注。然而，高质量重排序模型的训练依赖于大规模、细粒度的查询-文档相关性标注数据，这构成了领域内的重要瓶颈。LightOn embeddings-fine-tuning-reranked-v1数据集正是在此背景下应运而生，由LightOn与混合面包AI（mixedbread-ai）等机构于近期协作构建。该数据集的核心创新在于，利用强大的重排序模型mxbai-rerank-large-v2作为教师模型，对现有embedding微调数据集中的每个查询-候选文档对进行重新评分，从而生成可直接用于知识蒸馏的软标签。这一方法显著降低了人工标注成本，并为后续跨编码器系列重排序模型（如ettin-reranker-v1家族）提供了坚实的训练基础，推动了重排序领域从硬标签向软标签蒸馏范式的转变。

当前挑战

该数据集所解决的领域挑战集中于重排序模型的训练数据鸿沟。传统方法依赖人工标注的二元相关性判断，不仅成本高昂且难以捕捉细微的相关性差异。数据集构建过程中，面临的首要挑战是如何从原始embedding数据集中数以千万计的查询-文档对中高效提取并评分，覆盖来自金融问答（FiQA）、多跳推理（HotpotQA）、网络搜索（MS MARCO）等多个异构领域的逾两千万文档。评分阶段需调用大模型对每对样本进行推理，计算量极为庞大。为平衡数据规模与可用性，构建者引入了基于分层采样的子采样策略，在保留教师模型完整评分分布特征的同时，将每查询文档数从2048压缩至256，并严格确保正例与高难度负例的包含，这构成了算法设计上的技术难点。

常用场景

经典使用场景

在信息检索与自然语言处理领域，该数据集的核心应用场景聚焦于重排序模型的训练与评估。其通过混合检索基准语料库（如MS MARCO、Natural Questions、TriviaQA等），为每个查询提供了基于教师模型mxbai-rerank-large-v2重新评分的候选文档列表，尤其适用于知识蒸馏框架下学生重排序器的训练。数据集提供了多种配置，其中scores_merged_subsampled通过分层采样策略将每个查询的候选文档压缩至256篇，在保持教师模型评分分布特性的同时，显著提升了训练效率，成为训练轻量级重排序模型的理想选择。

解决学术问题

该数据集致力于解决重排序模型训练中教师信号效率与质量的核心矛盾。传统方法依赖硬负样本挖掘，但忽略了教师模型评分分布的全局信息。本数据集通过教师模型对海量候选文档进行全量评分，并采用Jang等人提出的分层锚定采样策略，在压缩数据规模的同时完整保留了教师偏好的形状特征。此举有效缓解了知识蒸馏中评分分布失真的问题，使得学生模型能够更精准地模仿教师对文档相关性的细腻判断，显著提升了重排序模型在多种检索基准上的泛化能力。

实际应用

在实际应用中，该数据集主要服务于搜索引擎、问答系统与对话系统的重排序模块。例如，在MS MARCO段落检索任务中，基于该数据集训练的重排序模型可精准从数千篇候选中挑选出最相关的文档，从而提升搜索结果的响应质量。同时，该数据集支持点式MSE损失与列表式排序损失（如LambdaLoss、ListNet）的训练范式，便于研究者灵活适配下游任务。此外，跨领域语料库的整合使得模型能够迁移至金融咨询（如FiQA）与事实核查（如FEVER）等专有场景，具备较强的领域泛化能力。

数据集最近研究