five

deepset/germandpr

收藏
Hugging Face2023-04-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/deepset/germandpr
下载链接
链接失效反馈
官方服务:
资源简介:
GermanDPR数据集基于GermanQuAD,并添加了来自德国维基百科的硬负样本,格式类似于DPR数据集。数据集包含9275个训练集和1025个测试集的问题/答案对,每个对包含一个正上下文和三个硬负上下文。数据集主要用于开放域问答和文本检索任务,语言为德语。
提供机构:
deepset
原始信息汇总

数据集概述

数据集名称

  • GermanDPR

语言

  • 德语 (de)

数据集来源

  • 原始数据集

任务类别

  • 问答
  • 文本检索

任务ID

  • 抽取式问答 (extractive-qa)
  • 封闭领域问答 (closed-domain-qa)

数据集结构

  • 数据实例:每个实例包含问题、答案、正向上下文和三个硬负向上下文。
  • 数据字段
    • question: 字符串类型
    • answers: 字符串列表类型
    • positive_ctxs: 包含标题、文本和段落ID的字典类型
    • negative_ctxs: 包含标题、文本和段落ID的字典类型
    • hard_negative_ctxs: 包含标题、文本和段落ID的字典类型
  • 数据分割
    • 训练集:9275个问题/答案对,每个对有一个正向上下文和三个硬负向上下文。
    • 测试集:1025个问题/答案对,每个对有一个正向上下文和三个硬负向上下文。

许可证

  • CC-BY-4.0

数据集创建者

  • Timo Möller, Julian Risch, Malte Pietsch, Julian Gutsch, Tom Hersperger, Luise Köhler, Iuliia Mozhina, Justus Peter

引用信息

@misc{möller2021germanquad, title={GermanQuAD and GermanDPR: Improving Non-English Question Answering and Passage Retrieval}, author={Timo Möller and Julian Risch and Malte Pietsch}, year={2021}, eprint={2104.12741}, archivePrefix={arXiv}, primaryClass={cs.CL} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作