khalidalt/tydiqa-primary

Name: khalidalt/tydiqa-primary
Creator: khalidalt
Published: 2022-07-28 21:56:04
License: 暂无描述

Hugging Face2022-07-28 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/khalidalt/tydiqa-primary

下载链接

链接失效反馈

官方服务：

资源简介：

TyDi QA是一个包含204K问题-答案对的多语言问答数据集，涵盖11种不同类型的语言，包括英语、阿拉伯语、孟加拉语、芬兰语、印度尼西亚语、日语、斯瓦希里语、韩语、俄语、泰卢固语和泰语。该数据集通过其语言的多样性，旨在提升模型在多种语言上的泛化能力，并包含英语语料库中不常见的语言现象。数据收集方式独特，问题由未知答案的人提出，且直接在各语言环境中收集，无需翻译。

提供机构：

khalidalt

原始信息汇总

数据集概述

数据集基本信息

名称: TyDi QA
类型: 多语言问答数据集
语言: 英语（en）、阿拉伯语（ar）、孟加拉语（bn）、芬兰语（fi）、印尼语（id）、日语（ja）、斯瓦希里语（sw）、韩语（ko）、俄语（ru）、泰卢固语（te）、泰语（th）
许可证: Apache-2.0
多语言性: 多语言
大小: 未知
来源数据集: 扩展自维基百科
任务类别: 问答
任务ID: 抽取式问答
论文代码ID: tydi-qa

数据集描述

数据集摘要

TyDi QA 是一个包含204,000个问答对的数据集，覆盖11种类型多样的语言。该数据集旨在通过涵盖多种语言特征，使模型能够跨多种语言进行泛化。数据集中的问题由未知答案的人撰写，以避免先入为主的效应，并且数据直接在每种语言中收集，无需翻译。

支持的任务和排行榜

任务: 抽取式问答

语言

支持的语言: 英语、阿拉伯语、孟加拉语、芬兰语、印尼语、日语、斯瓦希里语、韩语、俄语、泰卢固语、泰语

数据集结构

数据实例

数据集包含训练集和验证集，其中训练集包含166,916个实例，验证集包含18,670个实例。

数据字段

passage_answer_candidates: 包含候选答案的起始和结束字节位置。
question_text: 问题文本。
document_title: 文档标题。
language: 语言标识。
annotations: 包含答案候选索引、起始和结束字节位置以及是否为“是/否”答案。
document_plaintext: 文档纯文本。
document_url: 文档URL。

数据分割

训练集: 166,916个实例
验证集: 18,670个实例

数据集创建

来源数据

数据来源: 扩展自维基百科

注释

注释创建者: 众包

许可证信息

许可证: Apache-2.0

引用信息

@article{tydiqa, title = {TyDi QA: A Benchmark for Information-Seeking Question Answering in Typologically Diverse Languages}, author = {Jonathan H. Clark and Eunsol Choi and Michael Collins and Dan Garrette and Tom Kwiatkowski and Vitaly Nikolaev and Jennimaria Palomaki} year = {2020}, journal = {Transactions of the Association for Computational Linguistics} }

搜集汇总

数据集介绍

背景与挑战

背景概述

TyDi QA是一个多语言问题回答数据集，涵盖11种类型多样的语言，包含20.4万个问题-答案对。其设计旨在模拟真实信息寻求任务，通过直接收集每种语言的原始数据（而非翻译）来避免语言偏差，支持跨语言模型的泛化能力评估。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集