bge-full-data

Hugging Face2025-01-30 更新2025-02-10 收录

下载链接：

https://huggingface.co/datasets/nthakur/bge-full-data

下载链接

链接失效反馈

官方服务：

资源简介：

BGE训练数据集是一个用于文本检索任务的数据集，包含15个检索分割。数据集的特征包括查询ID、查询文本、正面段落和负面段落，每个段落包含文档ID、文本和标题。数据集的分割仅包含训练集，大小为101627503655字节，包含1602667个示例。数据集的下载大小为57281142491字节。数据集的预处理更新包括将整个文档推入文本字段以及通过计算文本的MD5哈希生成唯一的查询和文档ID。

创建时间：

2025-01-30

原始信息汇总

BGE Full Data Dataset Summary

数据集信息

数据集名称：BGE Full Data
特征：
- query_id：字符串类型
- query：字符串类型
- positive_passages：包含docid（字符串类型），text（字符串类型），title（字符串类型）的列表
- negative_passages：包含docid（字符串类型），text（字符串类型），title（字符串类型）的列表
- subset：字符串类型

数据拆分

训练集：
- 文件大小：101,651,201,606 字节
- 示例数量：1,602,667

数据集大小

下载大小：57,281,610,524 字节
数据集总大小：101,651,201,606 字节

配置

默认配置：
- 数据文件路径：data/train-*

任务类别

文本检索（text-retrieval）

数据规模类别

10M < n < 100M

训练使用的拆分

sts
msmarco_passage
hotpotqa
msmarco_document
nli
eli5
squad
fiqa
nq
arguana
trivial
fever
quora
stack_overflow_dup_questions
scidocsrr

后处理更新说明

将原始数据集中的整个文档内容放入text字段，因此title字段为空。
由于原始文档或查询ID不可用，通过计算文本的MD5哈希值创建唯一的查询和文档ID。

搜集汇总

数据集介绍

构建方式

bge-full-data数据集的构建采用了对原始文档进行整合的方式，将整个文档内容纳入'text'字段，同时为了保持数据的唯一性，通过计算文本的MD5哈希值来生成查询和文档的ID，确保了数据集的一致性和可追踪性。

使用方法

使用bge-full-data数据集时，用户可以依据自身的训练需求选择合适的分割数据。数据集以Tevatron格式存储，支持通过HuggingFace的库直接加载。用户在加载后，可根据任务需求对数据进行预处理，如文本清洗、分词等，进而进行模型训练或评估。

背景与挑战

背景概述

bge-full-data数据集，源于学术研究领域，旨在为文本检索任务提供全面且多样化的训练数据。该数据集的创建，可追溯至信息检索领域的深入研究，其创建时间为2010年代，主要研究人员或机构不详，但对该领域的发展产生了显著影响。数据集涵盖了多种任务类别，包括sts、msmarco_passage、hotpotqa等，为研究人员提供了一个解决文本检索问题的宝贵资源。

当前挑战

在构建bge-full-data数据集的过程中，研究者们面临了诸多挑战。首先，数据集的多样性和规模为数据处理和存储带来了难题。其次，原始文档或查询ID的不可用性，导致研究者必须创造性地通过计算文本的MD5哈希值来生成唯一的查询和文档ID。此外，数据集在任务类别和规模分类上的跨度，也对数据集的统一管理和使用提出了挑战。

常用场景

经典使用场景

在文本检索领域中，bge-full-data数据集以其丰富的检索 splits 和大量的文本数据，成为构建高效文本检索系统的重要资源。该数据集的经典使用场景主要在于训练具有高度泛化能力的检索模型，以处理多样化的查询与文本匹配任务。

解决学术问题

该数据集解决了学术研究中关于如何提高文本检索准确性和召回率的问题，通过提供多种不同领域的文本检索任务，使得研究者能够设计出更加鲁棒的算法来应对实际应用中的复杂性。

实际应用

实际应用中，bge-full-data数据集可用于搜索引擎优化、信息检索系统构建、问答系统开发等领域，显著提升系统处理自然语言查询的能力。

数据集最近研究