five

khalidalt/tydiqa-goldp

收藏
Hugging Face2022-07-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/khalidalt/tydiqa-goldp
下载链接
链接失效反馈
官方服务:
资源简介:
TyDi QA是一个涵盖11种类型多样语言的问答数据集,包含204K个问答对。这些语言在类型学上具有多样性,即每种语言表达的语言特征集合,因此我们期望在此数据集上表现良好的模型能够泛化到世界上大量语言。它包含了在仅英语语料库中找不到的语言现象。为了提供一个真实的信息搜索任务并避免启动效应,问题是由想要知道答案但还不知道答案的人编写的(与SQuAD及其后代不同),并且数据是直接以每种语言收集的,而不使用翻译(与MLQA和XQuAD不同)。
提供机构:
khalidalt
原始信息汇总

数据集概述

基本信息

  • 数据集名称: TyDi QA
  • 标注创建者: 众包
  • 语言创建者: 众包
  • 语言: 英语、阿拉伯语、孟加拉语、芬兰语、印度尼西亚语、日语、斯瓦希里语、韩语、俄语、泰卢固语、泰语
  • 许可证: Apache 2.0
  • 多语言性: 多语言
  • 数据集大小: 未知
  • 源数据集: 扩展自维基百科
  • 任务类别: 问答
  • 任务ID: 抽取式问答
  • PapersWithCode ID: tydi-qa

数据集描述

数据集摘要

TyDi QA 是一个涵盖 11 种类型多样语言的问答数据集,包含 204K 个问答对。这些语言在类型学上具有多样性,使得在该数据集上表现良好的模型能够泛化到世界上大多数语言。该数据集包含不会在仅英语语料库中发现的语言现象。为了提供一个现实的信息寻求任务并避免提示效应,问题由想要知道答案但尚未知道答案的人编写,这与 SQuAD 及其后代不同,并且数据直接在每种语言中收集,无需翻译,这与 MLQA 和 XQuAD 不同。

数据结构

数据实例

  • primary_task:

    • 下载数据文件大小: 1863.37 MB
    • 生成数据集大小: 5757.59 MB
    • 总磁盘使用量: 7620.96 MB
    • 验证集示例: json { "annotations": { "minimal_answers_end_byte": [-1, -1, -1], "minimal_answers_start_byte": [-1, -1, -1], "passage_answer_candidate_index": [-1, -1, -1], "yes_no_answer": ["NONE", "NONE", "NONE"] }, "document_plaintext": ""\nรองศาสตราจารย์[1] หม่อมราชวงศ์สุขุมพันธุ์ บริพัตร (22 กันยายน 2495 -) ผู้ว่าราชการกรุงเทพมหานครคนที่ 15 อดีตรองหัวหน้าพรรคปร...", "document_title": "หม่อมราชวงศ์สุขุมพันธุ์ บริพัตร", "document_url": ""https://th.wikipedia.org/wiki/%E0%B8%AB%E0%B8%A1%E0%B9%88%E0%B8%AD%E0%B8%A1%E0%B8%A3%E0%B8%B2%E0%B8%8A%E0%B8%A7%E0%B8%87%E0%B8%...", "language": "thai", "passage_answer_candidates": "{"plaintext_end_byte": [494, 1779, 2931, 3904, 4506, 5588, 6383, 7122, 8224, 9375, 10473, 12563, 15134, 17765, 19863, 21902, 229...", "question_text": ""หม่อมราชวงศ์สุขุมพันธุ์ บริพัตร เรียนจบจากที่ไหน ?"..." }
  • secondary_task:

    • 下载数据文件大小: 1863.37 MB
    • 生成数据集大小: 55.34 MB
    • 总磁盘使用量: 1918.71 MB
    • 验证集示例: json { "answers": { "answer_start": [394], "text": ["بطولتين"] }, "context": ""أقيمت البطولة 21 مرة، شارك في النهائيات 78 دولة، وعدد الفرق التي فازت بالبطولة حتى الآن 8 فرق، ويعد المنتخب البرازيلي الأكثر تت...", "id": "arabic-2387335860751143628-1", "question": ""كم عدد مرات فوز الأوروغواي ببطولة كاس العالم لكرو القدم؟"...", "title": "قائمة نهائيات كأس العالم" }

数据字段

primary_task

  • passage_answer_candidates: 包含以下字段:
    • plaintext_start_byte: int32
    • plaintext_end_byte: int32
  • question_text: string
  • document_title: string
  • language: string
  • annotations: 包含以下字段:
    • passage_answer_candidate_index: int32
    • minimal_answers_start_byte: int32
    • minimal_answers_end_byte: int32
    • yes_no_answer: string
  • document_plaintext: string
  • document_url: string

secondary_task

  • id: string
  • title: string
  • context: string
  • question: string
  • answers: 包含以下字段:
    • text: string
    • answer_start: int32

数据分割

名称 训练集 验证集
primary_task 166916 18670
secondary_task 49881 5077

引用信息

@article{tydiqa, title = {TyDi QA: A Benchmark for Information-Seeking Question Answering in Typologically Diverse Languages}, author = {Jonathan H. Clark and Eunsol Choi and Michael Collins and Dan Garrette and Tom Kwiatkowski and Vitaly Nikolaev and Jennimaria Palomaki} year = {2020}, journal = {Transactions of the Association for Computational Linguistics} }

@inproceedings{ruder-etal-2021-xtreme, title = "{XTREME}-{R}: Towards More Challenging and Nuanced Multilingual Evaluation", author = "Ruder, Sebastian and Constant, Noah and Botha, Jan and Siddhant, Aditya and Firat, Orhan and Fu, Jinlan and Liu, Pengfei and Hu, Junjie and Garrette, Dan and Neubig, Graham and Johnson, Melvin", booktitle = "Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing", month = nov, year = "2021", address = "Online and Punta Cana, Dominican Republic", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2021.emnlp-main.802", doi = "10.18653/v1/2021.emnlp-main.802", pages = "10215--10245", }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作