UKPLab/dapr
收藏Hugging Face2024-08-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/UKPLab/dapr
下载链接
链接失效反馈官方服务:
资源简介:
DAPR(Document-Aware Passage Retrieval)数据集是一个用于文档感知段落检索的基准数据集,旨在要求检索系统在给定查询时返回文档中相关的段落,并强调利用文档级别的上下文信息。数据集包含五个主要数据集:MS MARCO、Natural Questions、MIRACL、Genomics和ConditionalQA,以及一个额外的NQ-hard子集。每个数据集包含查询、段落/文档和相关性判断。数据集的设计目的是鼓励检索系统在检索相关段落时考虑文档的上下文信息,例如共指解析、主题理解和多跳推理。
DAPR(Document-Aware Passage Retrieval)数据集是一个用于文档感知段落检索的基准数据集,旨在要求检索系统在给定查询时返回文档中相关的段落,并强调利用文档级别的上下文信息。数据集包含五个主要数据集:MS MARCO、Natural Questions、MIRACL、Genomics和ConditionalQA,以及一个额外的NQ-hard子集。每个数据集包含查询、段落/文档和相关性判断。数据集的设计目的是鼓励检索系统在检索相关段落时考虑文档的上下文信息,例如共指解析、主题理解和多跳推理。
提供机构:
UKPLab
原始信息汇总
数据集概述
数据集配置
数据集包含多个配置,每个配置对应不同的数据文件和分割:
-
ConditionalQA-corpus:
- 分割: test
- 路径: ConditionalQA/corpus/*
-
ConditionalQA-corpus_coref:
- 分割: test
- 路径: ConditionalQA/corpus_coref/*
-
ConditionalQA-docs:
- 分割: test
- 路径: ConditionalQA/docs/*
-
ConditionalQA-keyphrases:
- 分割: test
- 路径: ConditionalQA/keyphrases/*
-
ConditionalQA-qrels:
- 分割: train, dev, test
- 路径: ConditionalQA/qrels/{train,dev,test}.parquet
-
ConditionalQA-queries:
- 分割: train, dev, test
- 路径: ConditionalQA/queries/{train,dev,test}.parquet
-
Genomics-corpus:
- 分割: test
- 路径: Genomics/corpus/*
-
Genomics-corpus_coref:
- 分割: test
- 路径: Genomics/corpus_coref/*
-
Genomics-docs:
- 分割: test
- 路径: Genomics/docs/*
-
Genomics-keyphrases:
- 分割: test
- 路径: Genomics/keyphrases/*
-
Genomics-qrels:
- 分割: test
- 路径: Genomics/qrels/test.parquet
-
Genomics-queries:
- 分割: test
- 路径: Genomics/queries/test.parquet
-
MIRACL-corpus:
- 分割: test
- 路径: MIRACL/corpus/*
-
MIRACL-corpus_coref:
- 分割: test
- 路径: MIRACL/corpus_coref/*
-
MIRACL-docs:
- 分割: test
- 路径: MIRACL/docs/*
-
MIRACL-keyphrases:
- 分割: test
- 路径: MIRACL/keyphrases/*
-
MIRACL-qrels:
- 分割: train, dev, test
- 路径: MIRACL/qrels/{train,dev,test}.parquet
-
MIRACL-queries:
- 分割: train, dev, test
- 路径: MIRACL/queries/{train,dev,test}.parquet
-
MSMARCO-corpus:
- 分割: test
- 路径: MSMARCO/corpus/*
-
MSMARCO-corpus_coref:
- 分割: test
- 路径: MSMARCO/corpus_coref/*
-
MSMARCO-docs:
- 分割: test
- 路径: MSMARCO/docs/*
-
MSMARCO-keyphrases:
- 分割: test
- 路径: MSMARCO/keyphrases/*
-
MSMARCO-qrels:
- 分割: train, dev, test
- 路径: MSMARCO/qrels/{train,dev,test}.parquet
-
MSMARCO-queries:
- 分割: train, dev, test
- 路径: MSMARCO/queries/{train,dev,test}.parquet
-
NaturalQuestions-corpus:
- 分割: test
- 路径: NaturalQuestions/corpus/*
-
NaturalQuestions-corpus_coref:
- 分割: test
- 路径: NaturalQuestions/corpus_coref/*
-
NaturalQuestions-docs:
- 分割: test
- 路径: NaturalQuestions/docs/*
-
NaturalQuestions-keyphrases:
- 分割: test
- 路径: NaturalQuestions/keyphrases/*
-
NaturalQuestions-qrels:
- 分割: dev, test
- 路径: NaturalQuestions/qrels/{dev,test}.parquet
-
NaturalQuestions-queries:
- 分割: dev, test
- 路径: NaturalQuestions/queries/{dev,test}.parquet
-
nq-hard:
- 分割: test
- 路径: NaturalQuestions/nq-hard/*
数据集信息
特征
- doc_id: 文档ID,类型为字符串。
- title: 文档标题,类型为字符串。
- passage_ids: 段落ID列表,类型为字符串序列。
- passages: 段落文本列表,类型为字符串序列。
- is_candidate: 是否为候选段落,类型为布尔序列。
分割
- test:
- 字节数: 13421074669
- 样本数: 5758285
数据集大小
- 下载大小: 7956252663 字节
- 数据集大小: 13421074669 字节



