five

khalidalt/tydiqa-primary

收藏
Hugging Face2022-07-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/khalidalt/tydiqa-primary
下载链接
链接失效反馈
官方服务:
资源简介:
TyDi QA是一个包含204K问题-答案对的多语言问答数据集,涵盖11种不同类型的语言,包括英语、阿拉伯语、孟加拉语、芬兰语、印度尼西亚语、日语、斯瓦希里语、韩语、俄语、泰卢固语和泰语。该数据集通过其语言的多样性,旨在提升模型在多种语言上的泛化能力,并包含英语语料库中不常见的语言现象。数据收集方式独特,问题由未知答案的人提出,且直接在各语言环境中收集,无需翻译。
提供机构:
khalidalt
原始信息汇总

数据集概述

数据集基本信息

  • 名称: TyDi QA
  • 类型: 多语言问答数据集
  • 语言: 英语(en)、阿拉伯语(ar)、孟加拉语(bn)、芬兰语(fi)、印尼语(id)、日语(ja)、斯瓦希里语(sw)、韩语(ko)、俄语(ru)、泰卢固语(te)、泰语(th)
  • 许可证: Apache-2.0
  • 多语言性: 多语言
  • 大小: 未知
  • 来源数据集: 扩展自维基百科
  • 任务类别: 问答
  • 任务ID: 抽取式问答
  • 论文代码ID: tydi-qa

数据集描述

数据集摘要

TyDi QA 是一个包含204,000个问答对的数据集,覆盖11种类型多样的语言。该数据集旨在通过涵盖多种语言特征,使模型能够跨多种语言进行泛化。数据集中的问题由未知答案的人撰写,以避免先入为主的效应,并且数据直接在每种语言中收集,无需翻译。

支持的任务和排行榜

  • 任务: 抽取式问答

语言

  • 支持的语言: 英语、阿拉伯语、孟加拉语、芬兰语、印尼语、日语、斯瓦希里语、韩语、俄语、泰卢固语、泰语

数据集结构

数据实例

数据集包含训练集和验证集,其中训练集包含166,916个实例,验证集包含18,670个实例。

数据字段

  • passage_answer_candidates: 包含候选答案的起始和结束字节位置。
  • question_text: 问题文本。
  • document_title: 文档标题。
  • language: 语言标识。
  • annotations: 包含答案候选索引、起始和结束字节位置以及是否为“是/否”答案。
  • document_plaintext: 文档纯文本。
  • document_url: 文档URL。

数据分割

  • 训练集: 166,916个实例
  • 验证集: 18,670个实例

数据集创建

来源数据

  • 数据来源: 扩展自维基百科

注释

  • 注释创建者: 众包

许可证信息

  • 许可证: Apache-2.0

引用信息

@article{tydiqa, title = {TyDi QA: A Benchmark for Information-Seeking Question Answering in Typologically Diverse Languages}, author = {Jonathan H. Clark and Eunsol Choi and Michael Collins and Dan Garrette and Tom Kwiatkowski and Vitaly Nikolaev and Jennimaria Palomaki} year = {2020}, journal = {Transactions of the Association for Computational Linguistics} }

搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
TyDi QA是一个多语言问题回答数据集,涵盖11种类型多样的语言,包含20.4万个问题-答案对。其设计旨在模拟真实信息寻求任务,通过直接收集每种语言的原始数据(而非翻译)来避免语言偏差,支持跨语言模型的泛化能力评估。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作