copenlu/answerable_tydiqa

Name: copenlu/answerable_tydiqa
Creator: copenlu
Published: 2024-07-12 11:53:23
License: 暂无描述

Hugging Face2024-07-12 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/copenlu/answerable_tydiqa

下载链接

链接失效反馈

官方服务：

资源简介：

Answerable TyDi QA数据集是一个多语言问答数据集，涵盖了11种不同类型的语言，并且是原始TyDi QA数据集的扩展，包含了不可回答的问题。数据集包含训练集和验证集，分别有116067和13325个样本。每个样本包含问题文本、文档标题、语言、文档纯文本、文档URL以及标注信息（答案起始位置和答案文本）。如果问题不可回答，标注信息中的答案起始位置为-1，答案文本为空字符串。

提供机构：

copenlu

原始信息汇总

数据集概述

基本信息

数据集名称： Answerable TyDi QA
语言： 英语（en）、阿拉伯语（ar）、孟加拉语（bn）、芬兰语（fi）、印度尼西亚语（id）、日语（ja）、斯瓦希里语（sw）、韩语（ko）、俄语（ru）、泰卢固语（te）、泰语（th）
许可证： Apache-2.0
多语言性： 多语言
大小： 100K<n<1M

数据来源

源数据集： 扩展自Wikipedia

任务类型

任务类别： 问答（question-answering）
任务ID： 提取式问答（extractive-qa）

数据集结构

包含数据集： 训练集和验证集
训练集大小： 116,067个样本
验证集大小： 13,325个样本

数据实例

示例字段：
- question_text: 问题文本
- document_title: 文档标题
- language: 语言
- annotations: 注释
  - answer_start: 答案开始位置
  - answer_text: 答案文本
- document_plaintext: 文档纯文本
- document_url: 文档URL

数据集使用

加载数据集示例： py from datasets import load_dataset dataset = load_dataset("copenlu/answerable_tydiqa") train_set = dataset["train"] validation_set = dataset["validation"]

5,000+

优质数据集

54 个

任务类型

进入经典数据集