deepset/germanquad
收藏Hugging Face2023-04-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/deepset/germanquad
下载链接
链接失效反馈官方服务:
资源简介:
---
thumbnail: >-
https://thumb.tildacdn.com/tild3433-3637-4830-a533-353833613061/-/resize/720x/-/format/webp/germanquad.jpg
language:
- de
multilinguality:
- monolingual
source_datasets:
- original
task_categories:
- question-answering
- text-retrieval
task_ids:
- extractive-qa
- closed-domain-qa
- open-domain-qa
train-eval-index:
- config: plain_text
task: question-answering
task_id: extractive_question_answering
splits:
train_split: train
eval_split: test
col_mapping:
context: context
question: question
answers.text: answers.text
answers.answer_start: answers.answer_start
license: cc-by-4.0
---

# Dataset Card for germanquad
## Table of Contents
- [Dataset Description](#dataset-description)
- [Dataset Summary](#dataset-summary)
- [Supported Tasks](#supported-tasks-and-leaderboards)
- [Languages](#languages)
- [Dataset Structure](#dataset-structure)
- [Data Instances](#data-instances)
- [Data Fields](#data-instances)
- [Data Splits](#data-instances)
- [Additional Information](#additional-information)
- [Dataset Curators](#dataset-curators)
- [Citation Information](#citation-information)
## Dataset Description
- **Homepage:** https://deepset.ai/germanquad
- **Repository:** https://github.com/deepset-ai/haystack
- **Paper:** https://arxiv.org/abs/2104.12741
### Dataset Summary
In order to raise the bar for non-English QA, we are releasing a high-quality, human-labeled German QA dataset consisting of 13 722 questions, incl. a three-way annotated test set.
The creation of GermanQuAD is inspired by insights from existing datasets as well as our labeling experience from several industry projects. We combine the strengths of SQuAD, such as high out-of-domain performance, with self-sufficient questions that contain all relevant information for open-domain QA as in the NaturalQuestions dataset. Our training and test datasets do not overlap like other popular datasets and include complex questions that cannot be answered with a single entity or only a few words.
### Supported Tasks and Leaderboards
- `extractive-qa`, `closed-domain-qa`, `open-domain-qa`, `text-retrieval`: This dataset is intended to be used for `open-domain-qa`, but can also be used for information retrieval tasks.
### Languages
The sentences in the dataset are in German (de).
## Dataset Structure
### Data Instances
A sample from the training set is provided below:
```
{
"paragraphs": [
{
"qas": [
{
"question": "Von welchem Gesetzt stammt das Amerikanische ab? ",
"id": 51870,
"answers": [
{
"answer_id": 53778,
"document_id": 43958,
"question_id": 51870,
"text": "britischen Common Laws",
"answer_start": 146,
"answer_category": "SHORT"
}
],
"is_impossible": false
}
],
"context": "Recht_der_Vereinigten_Staaten\
\
=== Amerikanisches Common Law ===\
Obwohl die Vereinigten Staaten wie auch viele Staaten des Commonwealth Erben des britischen Common Laws sind, setzt sich das amerikanische Recht bedeutend davon ab. Dies rührt größtenteils von dem langen Zeitraum her, in dem sich das amerikanische Recht unabhängig vom Britischen entwickelt hat. Entsprechend schauen die Gerichte in den Vereinigten Staaten bei der Analyse von eventuell zutreffenden britischen Rechtsprinzipien im Common Law gewöhnlich nur bis ins frühe 19. Jahrhundert.\
Während es in den Commonwealth-Staaten üblich ist, dass Gerichte sich Entscheidungen und Prinzipien aus anderen Commonwealth-Staaten importieren, ist das in der amerikanischen Rechtsprechung selten. Ausnahmen bestehen hier nur, wenn sich überhaupt keine relevanten amerikanischen Fälle finden lassen, die Fakten nahezu identisch sind und die Begründung außerordentlich überzeugend ist. Frühe amerikanische Entscheidungen zitierten oft britische Fälle, solche Zitate verschwanden aber während des 19. Jahrhunderts, als die Gerichte eindeutig amerikanische Lösungen zu lokalen Konflikten fanden. In der aktuellen Rechtsprechung beziehen sich fast alle Zitate auf amerikanische Fälle.\
Einige Anhänger des Originalismus und der strikten Gesetzestextauslegung (''strict constructionism''), wie zum Beispiel der verstorbene Bundesrichter am Obersten Gerichtshof, Antonin Scalia, vertreten die Meinung, dass amerikanische Gerichte ''nie'' ausländische Fälle überprüfen sollten, die nach dem Unabhängigkeitskrieg entschieden wurden, unabhängig davon, ob die Argumentation überzeugend ist oder nicht. Die einzige Ausnahme wird hier in Fällen gesehen, die durch die Vereinigten Staaten ratifizierte völkerrechtliche Verträge betreffen. Andere Richter, wie zum Beispiel Anthony Kennedy und Stephen Breyer vertreten eine andere Ansicht und benutzen ausländische Rechtsprechung, sofern ihre Argumentation für sie überzeugend, nützlich oder hilfreich ist.",
"document_id": 43958
}
]
},
```
### Data Fields
- `id`: a `string` feature.
- `context`: a `string` feature.
- `question`: a `string` feature.
- `answers`: a dictionary feature containing:
- `text`: a `string` feature.
- `answer_start`: a `int32` feature.
### Data Splits
The dataset is split into a one-way annotated training set and a three-way annotated test set of German Wikipedia passages (paragraphs). Each passage is
from a different article.
| |passages|questions|answers|
|----------|----:|---------:|---------:|
|train|2540| 11518|11518|
|test|474| 2204|6536|
## Additional Information
### Dataset Curators
The dataset was initially created by Timo Möller, Julian Risch, Malte Pietsch, Julian Gutsch, Tom Hersperger, Luise Köhler, Iuliia Mozhina, and Justus Peter, during work done at deepset.ai
### Citation Information
```
@misc{möller2021germanquad,
title={GermanQuAD and GermanDPR: Improving Non-English Question Answering and Passage Retrieval},
author={Timo Möller and Julian Risch and Malte Pietsch},
year={2021},
eprint={2104.12741},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
```
GermanQuAD是一个高质量的人工标注的德语问答数据集,包含13,722个问题,其中包括一个三重标注的测试集。该数据集的创建灵感来源于现有数据集以及多个行业项目的标注经验。它结合了SQuAD的高域外性能和NaturalQuestions数据集中的自包含问题特点,适用于开放域问答任务。训练集和测试集不重叠,且包含无法通过单一实体或仅几个词回答的复杂问题。
提供机构:
deepset
原始信息汇总
数据集概述
数据集名称
- 名称: GermanQuAD
数据集描述
- 摘要: GermanQuAD 是一个高质量、人工标注的德语问答数据集,包含13,722个问题,其中包括一个三重标注的测试集。该数据集旨在提升非英语问答系统的性能。
- 语言: 德语 (de)
数据集结构
- 数据实例: 每个实例包含一个段落,其中包含一个问题和答案。
- 数据字段:
id: 字符串类型context: 字符串类型question: 字符串类型answers: 字典类型,包含text(字符串类型)和answer_start(整数类型)
- 数据分割: 数据集分为训练集和测试集,训练集包含2540个段落和11,518个问题,测试集包含474个段落和2,204个问题。
支持的任务
- 任务: 提取式问答 (
extractive-qa), 封闭域问答 (closed-domain-qa), 开放域问答 (open-domain-qa), 文本检索 (text-retrieval) - 主要用途: 开放域问答
数据集创建者
- 创建者: Timo Möller, Julian Risch, Malte Pietsch, Julian Gutsch, Tom Hersperger, Luise Köhler, Iuliia Mozhina, Justus Peter
- 机构: deepset.ai
引用信息
@misc{möller2021germanquad, title={GermanQuAD and GermanDPR: Improving Non-English Question Answering and Passage Retrieval}, author={Timo Möller and Julian Risch and Malte Pietsch}, year={2021}, eprint={2104.12741}, archivePrefix={arXiv}, primaryClass={cs.CL} }
搜集汇总
数据集介绍

背景与挑战
背景概述
GermanQuAD是一个高质量的德文问答数据集,包含13,722个人工标注的问题答案对,旨在提升非英语问答系统的性能。数据集支持开放域、封闭域和提取式问答任务,其训练集和测试集无重叠,且包含需要复杂推理的问题。
以上内容由遇见数据集搜集并总结生成



