TYDI QA
收藏TyDi QA 数据集概述
简介
TyDi QA 是一个涵盖11种类型多样语言的问答数据集,包含204K个问题-答案对。这些语言在类型学上具有多样性,旨在评估模型在多种语言上的泛化能力。数据集中的问题由不知道答案的人提出,旨在模拟真实的信息检索场景,避免了翻译和预设答案的问题。
任务
主要任务
- Passage selection task (SelectP): 给定文章中的段落列表,返回回答问题的段落索引或NULL。
- Minimal answer span task (MinSpan): 给定文章全文,返回回答问题的最小跨度的起始和结束字节索引,或YES/NO,或NULL。
次要任务
- Gold passage task (GoldP): 给定包含答案的段落,预测回答问题的单个连续字符跨度。此任务更接近现有的阅读理解数据集。
数据下载
主要任务数据
黄金段落任务数据
基准系统
主要任务基准系统
提供基于多语言BERT的基准系统,详细信息见baseline/README.md。
黄金段落任务基准系统
提供与SQuAD 1.1兼容的基准系统,详细信息见gold_passage_baseline/README.md。
评估
主要任务评估
使用tydi_eval.py脚本进行评估,计算语言间的F1分数并取平均值。
黄金段落任务评估
使用SQuAD 1.1评估代码进行评估,详细信息见gold_passage_baseline/eval_gold_passage_baseline.sh。
排行榜提交
鼓励在开发集上报告结果,并提交到公共排行榜。详细提交步骤见leaderboard.md。
引用
请引用TyDi QA TACL文章:
@article{tydiqa, title = {TyDi QA: A Benchmark for Information-Seeking Question Answering in Typologically Diverse Languages}, author = {Jonathan H. Clark and Eunsol Choi and Michael Collins and Dan Garrette and Tom Kwiatkowski and Vitaly Nikolaev and Jennimaria Palomaki} year = {2020}, journal = {Transactions of the Association for Computational Linguistics} }

- 1TyDi QA: A Benchmark for Information-Seeking Question Answering in Typologically Diverse LanguagesGoogle Research · 2020年



