five

UKPLab/dapr

收藏
Hugging Face2024-08-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/UKPLab/dapr
下载链接
链接失效反馈
官方服务:
资源简介:
DAPR(Document-Aware Passage Retrieval)数据集是一个用于文档感知段落检索的基准数据集,旨在要求检索系统在给定查询时返回文档中相关的段落,并强调利用文档级别的上下文信息。数据集包含五个主要数据集:MS MARCO、Natural Questions、MIRACL、Genomics和ConditionalQA,以及一个额外的NQ-hard子集。每个数据集包含查询、段落/文档和相关性判断。数据集的设计目的是鼓励检索系统在检索相关段落时考虑文档的上下文信息,例如共指解析、主题理解和多跳推理。

DAPR(Document-Aware Passage Retrieval)数据集是一个用于文档感知段落检索的基准数据集,旨在要求检索系统在给定查询时返回文档中相关的段落,并强调利用文档级别的上下文信息。数据集包含五个主要数据集:MS MARCO、Natural Questions、MIRACL、Genomics和ConditionalQA,以及一个额外的NQ-hard子集。每个数据集包含查询、段落/文档和相关性判断。数据集的设计目的是鼓励检索系统在检索相关段落时考虑文档的上下文信息,例如共指解析、主题理解和多跳推理。
提供机构:
UKPLab
原始信息汇总

数据集概述

数据集配置

数据集包含多个配置,每个配置对应不同的数据文件和分割:

  • ConditionalQA-corpus:

    • 分割: test
    • 路径: ConditionalQA/corpus/*
  • ConditionalQA-corpus_coref:

    • 分割: test
    • 路径: ConditionalQA/corpus_coref/*
  • ConditionalQA-docs:

    • 分割: test
    • 路径: ConditionalQA/docs/*
  • ConditionalQA-keyphrases:

    • 分割: test
    • 路径: ConditionalQA/keyphrases/*
  • ConditionalQA-qrels:

    • 分割: train, dev, test
    • 路径: ConditionalQA/qrels/{train,dev,test}.parquet
  • ConditionalQA-queries:

    • 分割: train, dev, test
    • 路径: ConditionalQA/queries/{train,dev,test}.parquet
  • Genomics-corpus:

    • 分割: test
    • 路径: Genomics/corpus/*
  • Genomics-corpus_coref:

    • 分割: test
    • 路径: Genomics/corpus_coref/*
  • Genomics-docs:

    • 分割: test
    • 路径: Genomics/docs/*
  • Genomics-keyphrases:

    • 分割: test
    • 路径: Genomics/keyphrases/*
  • Genomics-qrels:

    • 分割: test
    • 路径: Genomics/qrels/test.parquet
  • Genomics-queries:

    • 分割: test
    • 路径: Genomics/queries/test.parquet
  • MIRACL-corpus:

    • 分割: test
    • 路径: MIRACL/corpus/*
  • MIRACL-corpus_coref:

    • 分割: test
    • 路径: MIRACL/corpus_coref/*
  • MIRACL-docs:

    • 分割: test
    • 路径: MIRACL/docs/*
  • MIRACL-keyphrases:

    • 分割: test
    • 路径: MIRACL/keyphrases/*
  • MIRACL-qrels:

    • 分割: train, dev, test
    • 路径: MIRACL/qrels/{train,dev,test}.parquet
  • MIRACL-queries:

    • 分割: train, dev, test
    • 路径: MIRACL/queries/{train,dev,test}.parquet
  • MSMARCO-corpus:

    • 分割: test
    • 路径: MSMARCO/corpus/*
  • MSMARCO-corpus_coref:

    • 分割: test
    • 路径: MSMARCO/corpus_coref/*
  • MSMARCO-docs:

    • 分割: test
    • 路径: MSMARCO/docs/*
  • MSMARCO-keyphrases:

    • 分割: test
    • 路径: MSMARCO/keyphrases/*
  • MSMARCO-qrels:

    • 分割: train, dev, test
    • 路径: MSMARCO/qrels/{train,dev,test}.parquet
  • MSMARCO-queries:

    • 分割: train, dev, test
    • 路径: MSMARCO/queries/{train,dev,test}.parquet
  • NaturalQuestions-corpus:

    • 分割: test
    • 路径: NaturalQuestions/corpus/*
  • NaturalQuestions-corpus_coref:

    • 分割: test
    • 路径: NaturalQuestions/corpus_coref/*
  • NaturalQuestions-docs:

    • 分割: test
    • 路径: NaturalQuestions/docs/*
  • NaturalQuestions-keyphrases:

    • 分割: test
    • 路径: NaturalQuestions/keyphrases/*
  • NaturalQuestions-qrels:

    • 分割: dev, test
    • 路径: NaturalQuestions/qrels/{dev,test}.parquet
  • NaturalQuestions-queries:

    • 分割: dev, test
    • 路径: NaturalQuestions/queries/{dev,test}.parquet
  • nq-hard:

    • 分割: test
    • 路径: NaturalQuestions/nq-hard/*

数据集信息

特征

  • doc_id: 文档ID,类型为字符串。
  • title: 文档标题,类型为字符串。
  • passage_ids: 段落ID列表,类型为字符串序列。
  • passages: 段落文本列表,类型为字符串序列。
  • is_candidate: 是否为候选段落,类型为布尔序列。

分割

  • test:
    • 字节数: 13421074669
    • 样本数: 5758285

数据集大小

  • 下载大小: 7956252663 字节
  • 数据集大小: 13421074669 字节
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作