UKPLab/dapr

Name: UKPLab/dapr
Creator: UKPLab
Published: 2024-08-11 03:13:11
License: 暂无描述

Hugging Face2024-08-11 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/UKPLab/dapr

下载链接

链接失效反馈

官方服务：

资源简介：

DAPR（Document-Aware Passage Retrieval）数据集是一个用于文档感知段落检索的基准数据集，旨在要求检索系统在给定查询时返回文档中相关的段落，并强调利用文档级别的上下文信息。数据集包含五个主要数据集：MS MARCO、Natural Questions、MIRACL、Genomics和ConditionalQA，以及一个额外的NQ-hard子集。每个数据集包含查询、段落/文档和相关性判断。数据集的设计目的是鼓励检索系统在检索相关段落时考虑文档的上下文信息，例如共指解析、主题理解和多跳推理。

提供机构：

UKPLab

原始信息汇总

数据集概述

数据集配置

数据集包含多个配置，每个配置对应不同的数据文件和分割：

ConditionalQA-corpus:
- 分割: test
- 路径: ConditionalQA/corpus/*
ConditionalQA-corpus_coref:
- 分割: test
- 路径: ConditionalQA/corpus_coref/*
ConditionalQA-docs:
- 分割: test
- 路径: ConditionalQA/docs/*
ConditionalQA-keyphrases:
- 分割: test
- 路径: ConditionalQA/keyphrases/*
ConditionalQA-qrels:
- 分割: train, dev, test
- 路径: ConditionalQA/qrels/{train,dev,test}.parquet
ConditionalQA-queries:
- 分割: train, dev, test
- 路径: ConditionalQA/queries/{train,dev,test}.parquet
Genomics-corpus:
- 分割: test
- 路径: Genomics/corpus/*
Genomics-corpus_coref:
- 分割: test
- 路径: Genomics/corpus_coref/*
Genomics-docs:
- 分割: test
- 路径: Genomics/docs/*
Genomics-keyphrases:
- 分割: test
- 路径: Genomics/keyphrases/*
Genomics-qrels:
- 分割: test
- 路径: Genomics/qrels/test.parquet
Genomics-queries:
- 分割: test
- 路径: Genomics/queries/test.parquet
MIRACL-corpus:
- 分割: test
- 路径: MIRACL/corpus/*
MIRACL-corpus_coref:
- 分割: test
- 路径: MIRACL/corpus_coref/*
MIRACL-docs:
- 分割: test
- 路径: MIRACL/docs/*
MIRACL-keyphrases:
- 分割: test
- 路径: MIRACL/keyphrases/*
MIRACL-qrels:
- 分割: train, dev, test
- 路径: MIRACL/qrels/{train,dev,test}.parquet
MIRACL-queries:
- 分割: train, dev, test
- 路径: MIRACL/queries/{train,dev,test}.parquet
MSMARCO-corpus:
- 分割: test
- 路径: MSMARCO/corpus/*
MSMARCO-corpus_coref:
- 分割: test
- 路径: MSMARCO/corpus_coref/*
MSMARCO-docs:
- 分割: test
- 路径: MSMARCO/docs/*
MSMARCO-keyphrases:
- 分割: test
- 路径: MSMARCO/keyphrases/*
MSMARCO-qrels:
- 分割: train, dev, test
- 路径: MSMARCO/qrels/{train,dev,test}.parquet
MSMARCO-queries:
- 分割: train, dev, test
- 路径: MSMARCO/queries/{train,dev,test}.parquet
NaturalQuestions-corpus:
- 分割: test
- 路径: NaturalQuestions/corpus/*
NaturalQuestions-corpus_coref:
- 分割: test
- 路径: NaturalQuestions/corpus_coref/*
NaturalQuestions-docs:
- 分割: test
- 路径: NaturalQuestions/docs/*
NaturalQuestions-keyphrases:
- 分割: test
- 路径: NaturalQuestions/keyphrases/*
NaturalQuestions-qrels:
- 分割: dev, test
- 路径: NaturalQuestions/qrels/{dev,test}.parquet
NaturalQuestions-queries:
- 分割: dev, test
- 路径: NaturalQuestions/queries/{dev,test}.parquet
nq-hard:
- 分割: test
- 路径: NaturalQuestions/nq-hard/*

数据集信息

特征

doc_id: 文档ID，类型为字符串。
title: 文档标题，类型为字符串。
passage_ids: 段落ID列表，类型为字符串序列。
passages: 段落文本列表，类型为字符串序列。
is_candidate: 是否为候选段落，类型为布尔序列。

分割

test:
- 字节数: 13421074669
- 样本数: 5758285

数据集大小

下载大小: 7956252663 字节
数据集大小: 13421074669 字节

5,000+

优质数据集

54 个

任务类型

进入经典数据集