lightonai-embeddings-fine-tuning-mxbai-rerank-large-v2

Hugging Face2026-05-11 更新2026-05-12 收录

下载链接：

https://huggingface.co/datasets/tomaarsen/lightonai-embeddings-fine-tuning-mxbai-rerank-large-v2

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个面向信息检索与问答任务的大规模基准数据集集合，整合了多个知名公开数据集。数据集包含三个核心配置：文档集（documents）、查询集（queries）和相关性评分集（scores）。文档集包含来自七个子数据集的文本内容，每个文档具有唯一ID和文本内容；查询集包含与这些文档对应的查询问题；评分集则提供了查询与多个文档之间的相关性分数列表，并标注了正例文档ID。数据集涵盖金融问答（fiqa）、多跳问答（hotpotqa）、网页检索（msmarco）、自然问题（nq）、事实验证（fever）、阅读理解（squadv2）和知识问答（trivia）等多个领域和任务。数据规模庞大，文档集总样本数超过4600万，查询集样本数超过110万，评分集样本数超过150万。此外，数据集还提供了多种预处理版本，包括合并评分（scores_merged）、子采样版本（subsampled）及其变体（v2），适用于检索模型训练、排序学习、问答系统评估等任务。

This dataset is a large-scale benchmark dataset collection for information retrieval and question answering tasks, integrating multiple well-known public datasets. The dataset includes three core configurations: documents, queries, and relevance score sets. The documents set contains text content from seven sub-datasets, with each document possessing a unique ID and its corresponding text content. The queries set contains query questions matching these documents. The score set provides a list of relevance scores between queries and multiple documents, and annotates the IDs of positive example documents. The dataset covers multiple domains and tasks including financial QA (fiqa), multi-hop QA (hotpotqa), web search (msmarco), natural questions (nq), fact verification (fever), reading comprehension (squadv2), and knowledge QA (trivia). It has a massive data scale, with the total sample count of the documents set exceeding 46 million, that of the queries set exceeding 1.1 million, and that of the score set exceeding 1.5 million. In addition, the dataset offers multiple preprocessed versions, including merged scores (scores_merged), subsampled versions (subsampled) and their variants (v2), which are applicable to tasks such as retrieval model training, learning to rank, and question answering system evaluation.

创建时间：

2026-05-08

原始信息汇总

数据集概述：lightonai-embeddings-fine-tuning-mxbai-rerank-large-v2

该数据集旨在用于微调重排序模型，包含来自多个信息检索（IR）数据集的文档、查询及其相关性得分。数据集包含多个配置（config），每个配置提供不同粒度或采样方式的分数数据。

数据集配置与结构

数据集主要包含三大类配置：文档（documents）、查询（queries） 和 得分（scores），其中得分配置有多个变体（如合并、下采样等）。

1. 文档配置（`documents`）

特征：
- document_id（int64）：文档的唯一标识符。
- document（string）：文档的文本内容。

子集（splits）和规模：

子集名称	样本数	字节数
fiqa	57,599	44,966,890
hotpotqa	5,220,635	1,474,468,794
msmarco	8,841,661	3,089,149,932
nq	10,120,660	3,105,995,994
fever	5,384,865	2,880,306,808
squadv2	19,029	14,541,224
trivia	20,970,784	13,228,661,481

总大小：下载大小 13,214,355,987 字节；数据集总大小 23,838,089,723 字节。

2. 查询配置（`queries`）

特征：
- query_id（int64）：查询的唯一标识符。
- query（string）：查询的文本内容。

子集（splits）和规模：

子集名称	样本数	字节数
fiqa	5,500	405,464
hotpotqa	85,000	9,999,569
msmarco	502,939	22,742,749
nq	307,373	18,663,008
fever	109,810	6,541,435
squadv2	130,217	9,184,156
trivia	78,785	7,297,884

总大小：下载大小 46,573,911 字节；数据集总大小 74,834,265 字节。

3. 得分配置（`scores` 及其变体）

所有得分配置均包含以下相同特征：

query_id（int64）：查询的唯一标识符。
document_ids（list of int64）：与该查询相关的文档ID列表。
scores（list of float32）：对应文档的相关性得分。
positive_ids（list of int64）：正样本（相关）文档的ID列表。

得分配置的变体：包括基础版本（scores, scores_v2）、合并版本（scores_merged, scores_merged_v2）以及进一步下采样的版本（scores_merged_subsampled, scores_merged_subsampled_v2, scores_subsampled, scores_subsampled_v2）。这些变体在样本数和字节数上有所不同，以适应不同训练需求。

配置名称	主要特征	总样本数（所有子集之和）	数据集总大小（字节）
`scores` / `scores_v2`	原始得分数据	1,940,835	约 46,298,634,360
`scores_subsampled` / `scores_subsampled_v2`	下采样后的得分数据	1,940,835	约 5,830,588,500
`scores_merged` / `scores_merged_v2`	按查询合并的得分数据	940,024	约 25,741,732,064
`scores_merged_subsampled` / `scores_merged_subsampled_v2`	合并后下采样的得分数据	940,024	约 3,248,031,968

所有配置共用的子集来源：

fiqa
hotpotqa
msmarco
nq
fever
squadv2
trivia

数据来源

该数据集整合了多个知名的信息检索和问答数据集，包括：FiQA、HotpotQA、MS MARCO、Natural Questions (NQ)、FEVER、SQuAD v2 和 TriviaQA。这使得数据集能够覆盖多样化的查询与文档场景，适用于训练和评估重排序模型。

搜集汇总

数据集介绍

构建方式

在信息检索与重排序模型的微调研究中，训练数据的质量与多样性至关重要。该数据集以Lighton AI的嵌入微调任务为背景，专为优化mxbai-rerank-large-v2重排序模型而构建。其构建逻辑围绕查询与文档的配对关系展开，通过整合多个经典检索基准（如FiQA、HotpotQA、MS MARCO、Natural Questions、FEVER、SQuADv2及TriviaQA）中的查询与文档，形成documents、queries和scores三大核心配置。其中，scores配置不仅存储了查询与文档的配对ID，还包含了由先进模型生成的评分及正面样本标识，为模型提供了直接的监督信号。此外，该数据集还提供了scores_merged、scores_subsampled等衍生版本，通过合并冗余配对或子采样降低规模，以满足不同训练资源需求。

特点

该数据集展现出鲜明的实用性与层次化结构特征。其最大特色在于多配置设计，从原始文档与查询到多种粒度的评分数据，形成了一条完整的训练数据管线。documents配置覆盖了超过2000万条来自不同领域的文档，而queries配置则集结了逾125万条真实查询，确保了语义覆盖的广度。scores系列配置则标定了查询与文档间的相关性强度，其中原始scores版本保留了完整配对，而merged版本通过合并同一查询的稀缺配对来优化分布，subsampled版本更通过随机采样大幅缩减数据规模（如trivia分片从740余万降至6万余例），显著提升了处理效率。这种多级降维策略使得数据集能够灵活适配从全量精训到快速原型验证的多种场景。

使用方法

使用该数据集进行模型微调时，可通过HuggingFace Datasets库便捷加载。用户需根据训练需求选择配置：若需完整的文档与查询映射，可直接加载documents与queries配置；若要获取监督信号，则应加载scores或其衍生版（如scores_merged）。例如，通过load_dataset函数指定config_name为'scores_merged'，即可获取合并后的查询-文档评分对，其中每个样本包含query_id、document_ids列表及对应的scores评分和positive_ids正面样本标识。对于资源受限场景，scores_merged_subsampled配置提供了更紧凑的训练集。在模型输入构建时，可将查询文本与对应文档拼接，并以scores作为回归或排序损失的目标值，从而驱动重排序模型学习精细的相关性判别能力。

背景与挑战

背景概述

该数据集由LightOn AI团队构建，专注于为信息检索中的重排序模型提供高质量微调数据。其核心研究问题在于如何利用大规模、多领域的查询-文档相关性分数对来提升重排序模型的泛化能力，从而弥补传统密集检索在深度语义匹配上的不足。数据集整合了FiQA、HotpotQA、MS MARCO、自然问题（NQ）、FEVER、SQuAD v2及TriviaQA等七个广泛使用的信息检索与问答基准，涵盖金融、多跳推理、段落检索、事实验证及开放域问答等多种场景。通过提供文档、查询及多种聚合与采样策略下的相关性分数配置，该资源为训练高效重排序模型（如mxbai-rerank-large-v2）奠定了坚实基础，对推动检索增强生成（RAG）与语义搜索技术的进步具有重要影响力。

当前挑战

该数据集所解决的领域挑战在于如何从海量候选文档中准确识别出与查询语义高度相关的少数关键结果。传统稀疏检索受限于词汇匹配，而密集检索虽能捕获浅层语义，却难以应对跨领域、多跳推理及细粒度事实验证等复杂需求。在构建过程中，主要挑战包括：1）从多个异构基准中统一抽取并规范化查询-文档对，确保评分一致性；2）设计有效的负样本与正样本筛选策略，避免噪声干扰；3）处理数据集规模庞大（如TriviaQA包含超2000万文档）所带来的存储与加载效率问题；4）提供多种采样版本（如scores_merged_subsampled）在保留关键分布的同时，控制计算开销，以适应不同训练场景。

常用场景

经典使用场景

在信息检索与自然语言处理领域，该数据集被广泛用于微调混合跨编码器（如mxbai-rerank-large-v2），以提升检索结果的排序质量。其经典用法是将预训练的排序模型在包含多源查询与文档对的监督信号上进一步训练，模型通过学习查询与文档之间的相关分数，能够更精准地对候选文档进行重排序。这种范式在稠密检索流程中扮演关键角色，通常作为检索管道中召回阶段之后的精排环节，显著改善最终结果的相关性。

实际应用

在实际应用中，该数据集及其微调后的模型被部署于搜索引擎、智能客服和知识库问答系统。例如，在金融领域（fiqa）中，模型能够从海量文档中精确定位与用户理财咨询高度相关的段落；在事实验证（fever）场景下，它帮助系统快速筛选支撑论断的证据。此外，基于该数据集的排序器常集成于企业级检索管线，用于提升产品搜索、文献挖掘和法律文档查找的精准度，实现从海量信息中高效提取用户所需内容的目标。

衍生相关工作

该数据集衍生了一系列经典工作，主要集中于排序模型的跨域微调与蒸馏。研究者基于其多样化的评分标注开发了多种轻量化变体，如scores_subsampled和scores_merged_subsampled版本，用于训练高效的学生模型。同时，该数据促进了对比学习与知识蒸馏在重排序任务中的融合，催生了诸如miniLM蒸馏框架和基于多任务学习的排序优化方法。这些工作进一步验证了领域混合训练对排序模型通用性的提升，并为后续构建新一代稠密检索系统奠定了坚实基础。

以上内容由遇见数据集搜集并总结生成