five

deepset/germanquad

收藏
Hugging Face2023-04-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/deepset/germanquad
下载链接
链接失效反馈
官方服务:
资源简介:
--- thumbnail: >- https://thumb.tildacdn.com/tild3433-3637-4830-a533-353833613061/-/resize/720x/-/format/webp/germanquad.jpg language: - de multilinguality: - monolingual source_datasets: - original task_categories: - question-answering - text-retrieval task_ids: - extractive-qa - closed-domain-qa - open-domain-qa train-eval-index: - config: plain_text task: question-answering task_id: extractive_question_answering splits: train_split: train eval_split: test col_mapping: context: context question: question answers.text: answers.text answers.answer_start: answers.answer_start license: cc-by-4.0 --- ![bert_image](https://thumb.tildacdn.com/tild3433-3637-4830-a533-353833613061/-/resize/720x/-/format/webp/germanquad.jpg) # Dataset Card for germanquad ## Table of Contents - [Dataset Description](#dataset-description) - [Dataset Summary](#dataset-summary) - [Supported Tasks](#supported-tasks-and-leaderboards) - [Languages](#languages) - [Dataset Structure](#dataset-structure) - [Data Instances](#data-instances) - [Data Fields](#data-instances) - [Data Splits](#data-instances) - [Additional Information](#additional-information) - [Dataset Curators](#dataset-curators) - [Citation Information](#citation-information) ## Dataset Description - **Homepage:** https://deepset.ai/germanquad - **Repository:** https://github.com/deepset-ai/haystack - **Paper:** https://arxiv.org/abs/2104.12741 ### Dataset Summary In order to raise the bar for non-English QA, we are releasing a high-quality, human-labeled German QA dataset consisting of 13 722 questions, incl. a three-way annotated test set. The creation of GermanQuAD is inspired by insights from existing datasets as well as our labeling experience from several industry projects. We combine the strengths of SQuAD, such as high out-of-domain performance, with self-sufficient questions that contain all relevant information for open-domain QA as in the NaturalQuestions dataset. Our training and test datasets do not overlap like other popular datasets and include complex questions that cannot be answered with a single entity or only a few words. ### Supported Tasks and Leaderboards - `extractive-qa`, `closed-domain-qa`, `open-domain-qa`, `text-retrieval`: This dataset is intended to be used for `open-domain-qa`, but can also be used for information retrieval tasks. ### Languages The sentences in the dataset are in German (de). ## Dataset Structure ### Data Instances A sample from the training set is provided below: ``` { "paragraphs": [ { "qas": [ { "question": "Von welchem Gesetzt stammt das Amerikanische ab? ", "id": 51870, "answers": [ { "answer_id": 53778, "document_id": 43958, "question_id": 51870, "text": "britischen Common Laws", "answer_start": 146, "answer_category": "SHORT" } ], "is_impossible": false } ], "context": "Recht_der_Vereinigten_Staaten\ \ === Amerikanisches Common Law ===\ Obwohl die Vereinigten Staaten wie auch viele Staaten des Commonwealth Erben des britischen Common Laws sind, setzt sich das amerikanische Recht bedeutend davon ab. Dies rührt größtenteils von dem langen Zeitraum her, in dem sich das amerikanische Recht unabhängig vom Britischen entwickelt hat. Entsprechend schauen die Gerichte in den Vereinigten Staaten bei der Analyse von eventuell zutreffenden britischen Rechtsprinzipien im Common Law gewöhnlich nur bis ins frühe 19. Jahrhundert.\ Während es in den Commonwealth-Staaten üblich ist, dass Gerichte sich Entscheidungen und Prinzipien aus anderen Commonwealth-Staaten importieren, ist das in der amerikanischen Rechtsprechung selten. Ausnahmen bestehen hier nur, wenn sich überhaupt keine relevanten amerikanischen Fälle finden lassen, die Fakten nahezu identisch sind und die Begründung außerordentlich überzeugend ist. Frühe amerikanische Entscheidungen zitierten oft britische Fälle, solche Zitate verschwanden aber während des 19. Jahrhunderts, als die Gerichte eindeutig amerikanische Lösungen zu lokalen Konflikten fanden. In der aktuellen Rechtsprechung beziehen sich fast alle Zitate auf amerikanische Fälle.\ Einige Anhänger des Originalismus und der strikten Gesetzestextauslegung (''strict constructionism''), wie zum Beispiel der verstorbene Bundesrichter am Obersten Gerichtshof, Antonin Scalia, vertreten die Meinung, dass amerikanische Gerichte ''nie'' ausländische Fälle überprüfen sollten, die nach dem Unabhängigkeitskrieg entschieden wurden, unabhängig davon, ob die Argumentation überzeugend ist oder nicht. Die einzige Ausnahme wird hier in Fällen gesehen, die durch die Vereinigten Staaten ratifizierte völkerrechtliche Verträge betreffen. Andere Richter, wie zum Beispiel Anthony Kennedy und Stephen Breyer vertreten eine andere Ansicht und benutzen ausländische Rechtsprechung, sofern ihre Argumentation für sie überzeugend, nützlich oder hilfreich ist.", "document_id": 43958 } ] }, ``` ### Data Fields - `id`: a `string` feature. - `context`: a `string` feature. - `question`: a `string` feature. - `answers`: a dictionary feature containing: - `text`: a `string` feature. - `answer_start`: a `int32` feature. ### Data Splits The dataset is split into a one-way annotated training set and a three-way annotated test set of German Wikipedia passages (paragraphs). Each passage is from a different article. | |passages|questions|answers| |----------|----:|---------:|---------:| |train|2540| 11518|11518| |test|474| 2204|6536| ## Additional Information ### Dataset Curators The dataset was initially created by Timo Möller, Julian Risch, Malte Pietsch, Julian Gutsch, Tom Hersperger, Luise Köhler, Iuliia Mozhina, and Justus Peter, during work done at deepset.ai ### Citation Information ``` @misc{möller2021germanquad, title={GermanQuAD and GermanDPR: Improving Non-English Question Answering and Passage Retrieval}, author={Timo Möller and Julian Risch and Malte Pietsch}, year={2021}, eprint={2104.12741}, archivePrefix={arXiv}, primaryClass={cs.CL} } ```

GermanQuAD是一个高质量的人工标注的德语问答数据集,包含13,722个问题,其中包括一个三重标注的测试集。该数据集的创建灵感来源于现有数据集以及多个行业项目的标注经验。它结合了SQuAD的高域外性能和NaturalQuestions数据集中的自包含问题特点,适用于开放域问答任务。训练集和测试集不重叠,且包含无法通过单一实体或仅几个词回答的复杂问题。
提供机构:
deepset
原始信息汇总

数据集概述

数据集名称

  • 名称: GermanQuAD

数据集描述

  • 摘要: GermanQuAD 是一个高质量、人工标注的德语问答数据集,包含13,722个问题,其中包括一个三重标注的测试集。该数据集旨在提升非英语问答系统的性能。
  • 语言: 德语 (de)

数据集结构

  • 数据实例: 每个实例包含一个段落,其中包含一个问题和答案。
  • 数据字段:
    • id: 字符串类型
    • context: 字符串类型
    • question: 字符串类型
    • answers: 字典类型,包含 text(字符串类型)和 answer_start(整数类型)
  • 数据分割: 数据集分为训练集和测试集,训练集包含2540个段落和11,518个问题,测试集包含474个段落和2,204个问题。

支持的任务

  • 任务: 提取式问答 (extractive-qa), 封闭域问答 (closed-domain-qa), 开放域问答 (open-domain-qa), 文本检索 (text-retrieval)
  • 主要用途: 开放域问答

数据集创建者

  • 创建者: Timo Möller, Julian Risch, Malte Pietsch, Julian Gutsch, Tom Hersperger, Luise Köhler, Iuliia Mozhina, Justus Peter
  • 机构: deepset.ai

引用信息

@misc{möller2021germanquad, title={GermanQuAD and GermanDPR: Improving Non-English Question Answering and Passage Retrieval}, author={Timo Möller and Julian Risch and Malte Pietsch}, year={2021}, eprint={2104.12741}, archivePrefix={arXiv}, primaryClass={cs.CL} }

搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
GermanQuAD是一个高质量的德文问答数据集,包含13,722个人工标注的问题答案对,旨在提升非英语问答系统的性能。数据集支持开放域、封闭域和提取式问答任务,其训练集和测试集无重叠,且包含需要复杂推理的问题。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作