DuRetrieval

Hugging Face2024-12-01 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/mteb/DuRetrieval

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含三个配置：corpus、default和queries。corpus配置包含文档的ID、文本和标题，分为dev分割，包含100001个样本。default配置包含查询ID、文档ID和评分，分为dev分割，包含9839个样本。queries配置包含查询的ID和文本，分为dev分割，包含2000个样本。每个配置都有相应的数据文件路径和大小信息。

This dataset contains three configurations: corpus, default, and queries. The corpus configuration includes document IDs, texts, and titles, with a dev split containing 100,001 samples. The default configuration includes query IDs, document IDs, and scores, with a dev split containing 9,839 samples. The queries configuration includes query IDs and texts, with a dev split containing 2,000 samples. Each configuration has corresponding data file paths and size information.

创建时间：

2024-11-28

原始信息汇总

DuRetrieval 数据集概述

数据集配置

配置名称：corpus

特征：
- _id：字符串类型
- text：字符串类型
- title：字符串类型
分割：
- dev：
  - 样本数量：100001
  - 数据大小：91613286 字节
下载大小：64442871 字节
数据集大小：91613286 字节

配置名称：default

特征：
- query-id：字符串类型
- corpus-id：字符串类型
- score：64位整数类型
分割：
- dev：
  - 样本数量：9839
  - 数据大小：787120 字节
下载大小：420717 字节
数据集大小：787120 字节

配置名称：queries

特征：
- _id：字符串类型
- text：字符串类型
分割：
- dev：
  - 样本数量：2000
  - 数据大小：131354 字节
下载大小：118467 字节
数据集大小：131354 字节

数据文件路径

corpus：
- dev：corpus/dev-*
default：
- dev：data/dev-*
queries：
- dev：queries/dev-*

搜集汇总

数据集介绍

构建方式

DuRetrieval数据集的构建方式主要围绕信息检索的核心任务展开，分为三个主要部分：语料库（corpus）、查询集（queries）以及默认配置（default）。语料库部分包含了文档的唯一标识符（_id）、文本内容（text）以及标题（title），构成了检索的基础数据。查询集则包含了查询的唯一标识符和文本内容，用于与语料库进行匹配。默认配置部分则记录了查询与语料库之间的匹配分数，形成了一个完整的检索评分体系。

特点

DuRetrieval数据集的特点在于其结构化的数据组织方式，清晰地将语料库、查询集和匹配结果分离，便于进行信息检索任务的训练和评估。此外，数据集提供了丰富的元数据，如文档的标题和唯一标识符，增强了数据的可解释性和实用性。数据集的规模适中，既适合快速实验，也足以支持较为复杂的模型训练。

使用方法

DuRetrieval数据集的使用方法灵活多样，适用于多种信息检索任务。用户可以利用语料库和查询集进行检索模型的训练，通过默认配置中的匹配分数进行模型评估。此外，数据集的结构化设计使得用户可以轻松地进行数据预处理和特征提取，从而加速模型的开发和优化过程。

背景与挑战

背景概述

DuRetrieval数据集由知名研究机构或团队于近年创建，专注于信息检索领域，旨在提供高质量的文本检索基准。该数据集包含多个配置，如语料库（corpus）、查询集（queries）以及默认配置（default），分别用于支持不同层次的检索任务。其核心研究问题围绕如何提升文本检索的准确性与效率，尤其是在大规模语料库中的应用。DuRetrieval的发布为信息检索领域的研究者提供了一个标准化的测试平台，推动了相关技术的进步与应用。

当前挑战

DuRetrieval数据集在构建过程中面临多项挑战。首先，如何在大规模语料库中确保检索结果的准确性是一个关键问题，尤其是在处理模糊查询和多义词时。其次，数据集的多样性和代表性也是一个挑战，确保语料库和查询集能够覆盖广泛的应用场景。此外，数据集的构建还需考虑计算资源的消耗和检索效率的优化，以满足实际应用的需求。这些挑战不仅推动了数据集本身的完善，也为信息检索技术的进一步发展提供了研究方向。

常用场景

经典使用场景

DuRetrieval数据集在信息检索领域中具有广泛的应用，尤其是在构建高效的检索系统方面。该数据集通过提供丰富的文本内容和查询对，使得研究者能够训练和评估检索模型的性能。经典的使用场景包括构建基于语义的检索系统，通过分析查询与文档之间的语义相似度，提升检索结果的准确性和相关性。此外，该数据集还可用于开发个性化检索模型，根据用户的历史查询行为和偏好，优化检索结果的排序和展示。

解决学术问题

DuRetrieval数据集解决了信息检索领域中多个关键的学术问题。首先，它为研究者提供了一个标准化的数据集，用于评估和比较不同检索模型的性能，从而推动了检索算法的发展。其次，该数据集通过包含大量的查询与文档对，帮助研究者深入探索语义检索的复杂性，解决了传统基于关键词匹配的检索方法在语义理解上的不足。此外，DuRetrieval还为个性化检索的研究提供了丰富的数据支持，推动了个性化信息检索技术的发展。

衍生相关工作

DuRetrieval数据集的发布催生了一系列相关的经典工作。研究者们基于该数据集开发了多种先进的检索模型，如基于深度学习的语义检索模型和基于图神经网络的检索方法。这些模型在多个公开的检索评测任务中取得了显著的性能提升。此外，DuRetrieval还激发了关于个性化检索和跨语言检索的研究，推动了信息检索领域的技术进步。相关的工作不仅在学术界引起了广泛关注，也在工业界得到了实际应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集