khalidalt/tydiqa-goldp
收藏数据集概述
基本信息
- 数据集名称: TyDi QA
- 标注创建者: 众包
- 语言创建者: 众包
- 语言: 英语、阿拉伯语、孟加拉语、芬兰语、印度尼西亚语、日语、斯瓦希里语、韩语、俄语、泰卢固语、泰语
- 许可证: Apache 2.0
- 多语言性: 多语言
- 数据集大小: 未知
- 源数据集: 扩展自维基百科
- 任务类别: 问答
- 任务ID: 抽取式问答
- PapersWithCode ID: tydi-qa
数据集描述
数据集摘要
TyDi QA 是一个涵盖 11 种类型多样语言的问答数据集,包含 204K 个问答对。这些语言在类型学上具有多样性,使得在该数据集上表现良好的模型能够泛化到世界上大多数语言。该数据集包含不会在仅英语语料库中发现的语言现象。为了提供一个现实的信息寻求任务并避免提示效应,问题由想要知道答案但尚未知道答案的人编写,这与 SQuAD 及其后代不同,并且数据直接在每种语言中收集,无需翻译,这与 MLQA 和 XQuAD 不同。
数据结构
数据实例
-
primary_task:
- 下载数据文件大小: 1863.37 MB
- 生成数据集大小: 5757.59 MB
- 总磁盘使用量: 7620.96 MB
- 验证集示例: json { "annotations": { "minimal_answers_end_byte": [-1, -1, -1], "minimal_answers_start_byte": [-1, -1, -1], "passage_answer_candidate_index": [-1, -1, -1], "yes_no_answer": ["NONE", "NONE", "NONE"] }, "document_plaintext": ""\nรองศาสตราจารย์[1] หม่อมราชวงศ์สุขุมพันธุ์ บริพัตร (22 กันยายน 2495 -) ผู้ว่าราชการกรุงเทพมหานครคนที่ 15 อดีตรองหัวหน้าพรรคปร...", "document_title": "หม่อมราชวงศ์สุขุมพันธุ์ บริพัตร", "document_url": ""https://th.wikipedia.org/wiki/%E0%B8%AB%E0%B8%A1%E0%B9%88%E0%B8%AD%E0%B8%A1%E0%B8%A3%E0%B8%B2%E0%B8%8A%E0%B8%A7%E0%B8%87%E0%B8%...", "language": "thai", "passage_answer_candidates": "{"plaintext_end_byte": [494, 1779, 2931, 3904, 4506, 5588, 6383, 7122, 8224, 9375, 10473, 12563, 15134, 17765, 19863, 21902, 229...", "question_text": ""หม่อมราชวงศ์สุขุมพันธุ์ บริพัตร เรียนจบจากที่ไหน ?"..." }
-
secondary_task:
- 下载数据文件大小: 1863.37 MB
- 生成数据集大小: 55.34 MB
- 总磁盘使用量: 1918.71 MB
- 验证集示例: json { "answers": { "answer_start": [394], "text": ["بطولتين"] }, "context": ""أقيمت البطولة 21 مرة، شارك في النهائيات 78 دولة، وعدد الفرق التي فازت بالبطولة حتى الآن 8 فرق، ويعد المنتخب البرازيلي الأكثر تت...", "id": "arabic-2387335860751143628-1", "question": ""كم عدد مرات فوز الأوروغواي ببطولة كاس العالم لكرو القدم؟"...", "title": "قائمة نهائيات كأس العالم" }
数据字段
primary_task
passage_answer_candidates: 包含以下字段:plaintext_start_byte:int32plaintext_end_byte:int32
question_text:stringdocument_title:stringlanguage:stringannotations: 包含以下字段:passage_answer_candidate_index:int32minimal_answers_start_byte:int32minimal_answers_end_byte:int32yes_no_answer:string
document_plaintext:stringdocument_url:string
secondary_task
id:stringtitle:stringcontext:stringquestion:stringanswers: 包含以下字段:text:stringanswer_start:int32
数据分割
| 名称 | 训练集 | 验证集 |
|---|---|---|
| primary_task | 166916 | 18670 |
| secondary_task | 49881 | 5077 |
引用信息
@article{tydiqa, title = {TyDi QA: A Benchmark for Information-Seeking Question Answering in Typologically Diverse Languages}, author = {Jonathan H. Clark and Eunsol Choi and Michael Collins and Dan Garrette and Tom Kwiatkowski and Vitaly Nikolaev and Jennimaria Palomaki} year = {2020}, journal = {Transactions of the Association for Computational Linguistics} }
@inproceedings{ruder-etal-2021-xtreme, title = "{XTREME}-{R}: Towards More Challenging and Nuanced Multilingual Evaluation", author = "Ruder, Sebastian and Constant, Noah and Botha, Jan and Siddhant, Aditya and Firat, Orhan and Fu, Jinlan and Liu, Pengfei and Hu, Junjie and Garrette, Dan and Neubig, Graham and Johnson, Melvin", booktitle = "Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing", month = nov, year = "2021", address = "Online and Punta Cana, Dominican Republic", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2021.emnlp-main.802", doi = "10.18653/v1/2021.emnlp-main.802", pages = "10215--10245", }



