khalidalt/tydiqa-primary
收藏Hugging Face2022-07-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/khalidalt/tydiqa-primary
下载链接
链接失效反馈官方服务:
资源简介:
TyDi QA是一个包含204K问题-答案对的多语言问答数据集,涵盖11种不同类型的语言,包括英语、阿拉伯语、孟加拉语、芬兰语、印度尼西亚语、日语、斯瓦希里语、韩语、俄语、泰卢固语和泰语。该数据集通过其语言的多样性,旨在提升模型在多种语言上的泛化能力,并包含英语语料库中不常见的语言现象。数据收集方式独特,问题由未知答案的人提出,且直接在各语言环境中收集,无需翻译。
提供机构:
khalidalt
原始信息汇总
数据集概述
数据集基本信息
- 名称: TyDi QA
- 类型: 多语言问答数据集
- 语言: 英语(en)、阿拉伯语(ar)、孟加拉语(bn)、芬兰语(fi)、印尼语(id)、日语(ja)、斯瓦希里语(sw)、韩语(ko)、俄语(ru)、泰卢固语(te)、泰语(th)
- 许可证: Apache-2.0
- 多语言性: 多语言
- 大小: 未知
- 来源数据集: 扩展自维基百科
- 任务类别: 问答
- 任务ID: 抽取式问答
- 论文代码ID: tydi-qa
数据集描述
数据集摘要
TyDi QA 是一个包含204,000个问答对的数据集,覆盖11种类型多样的语言。该数据集旨在通过涵盖多种语言特征,使模型能够跨多种语言进行泛化。数据集中的问题由未知答案的人撰写,以避免先入为主的效应,并且数据直接在每种语言中收集,无需翻译。
支持的任务和排行榜
- 任务: 抽取式问答
语言
- 支持的语言: 英语、阿拉伯语、孟加拉语、芬兰语、印尼语、日语、斯瓦希里语、韩语、俄语、泰卢固语、泰语
数据集结构
数据实例
数据集包含训练集和验证集,其中训练集包含166,916个实例,验证集包含18,670个实例。
数据字段
- passage_answer_candidates: 包含候选答案的起始和结束字节位置。
- question_text: 问题文本。
- document_title: 文档标题。
- language: 语言标识。
- annotations: 包含答案候选索引、起始和结束字节位置以及是否为“是/否”答案。
- document_plaintext: 文档纯文本。
- document_url: 文档URL。
数据分割
- 训练集: 166,916个实例
- 验证集: 18,670个实例
数据集创建
来源数据
- 数据来源: 扩展自维基百科
注释
- 注释创建者: 众包
许可证信息
- 许可证: Apache-2.0
引用信息
@article{tydiqa, title = {TyDi QA: A Benchmark for Information-Seeking Question Answering in Typologically Diverse Languages}, author = {Jonathan H. Clark and Eunsol Choi and Michael Collins and Dan Garrette and Tom Kwiatkowski and Vitaly Nikolaev and Jennimaria Palomaki} year = {2020}, journal = {Transactions of the Association for Computational Linguistics} }
搜集汇总
数据集介绍

背景与挑战
背景概述
TyDi QA是一个多语言问题回答数据集,涵盖11种类型多样的语言,包含20.4万个问题-答案对。其设计旨在模拟真实信息寻求任务,通过直接收集每种语言的原始数据(而非翻译)来避免语言偏差,支持跨语言模型的泛化能力评估。
以上内容由遇见数据集搜集并总结生成



