ai4bharat/IndicQuestionGeneration

Name: ai4bharat/IndicQuestionGeneration
Creator: ai4bharat
Published: 2022-10-13 06:08:25
License: 暂无描述

Hugging Face2022-10-13 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/ai4bharat/IndicQuestionGeneration

下载链接

链接失效反馈

官方服务：

资源简介：

IndicQuestionGeneration是IndicNLG Suite发布的问题生成数据集。每个示例包含五个字段：id、squad_id、answer、context和question。该数据集以11种语言创建，包括阿萨姆语、孟加拉语、古吉拉特语、印地语、卡纳达语、马拉雅拉姆语、马拉地语、奥里亚语、旁遮普语、泰米尔语和泰卢固语。这是翻译数据，每种语言的示例完全相同，只是语言不同。每种语言的示例数量为98,027个。

提供机构：

ai4bharat

原始信息汇总

数据集概述

名称: IndicQuestionGeneration

描述: IndicQuestionGeneration 是一个多语言的问题生成数据集，作为 IndicNLG Suite 的一部分发布。该数据集包含11种语言的翻译数据，每种语言有98,027个样本。

语言:

Assamese (as)
Bengali (bn)
Gujarati (gu)
Kannada (kn)
Hindi (hi)
Malayalam (ml)
Marathi (mr)
Oriya (or)
Punjabi (pa)
Tamil (ta)
Telugu (te)

许可: Creative Commons Attribution-NonCommercial 4.0 International License (CC BY-NC 4.0)

任务: 问题生成

数据集结构

数据实例: 每个实例包含以下字段：

id (string): 唯一标识符。
squad_id (string): 在 Squad 数据集中的唯一标识符。
answer (string): 答案。
context (string): 上下文信息。
question (string): 生成的问题。

数据分割: 数据集在每种语言中分为训练集、开发集和测试集，具体样本数如下：

语言	ISO 639-1 代码	训练集	开发集	测试集
Assamese	as	69,979	17,495	10,553
Bengali	bn	69,979	17,495	10,553
Gujarati	gu	69,979	17,495	10,553
Hindi	hi	69,979	17,495	10,553
Kannada	kn	69,979	17,495	10,553
Malayalam	ml	69,979	17,495	10,553
Marathi	mr	69,979	17,495	10,553
Oriya	or	69,979	17,495	10,553
Punjabi	pa	69,979	17,495	10,553
Tamil	ta	69,979	17,495	10,553
Telugu	te	69,979	17,495	10,553

数据集创建

源数据: 数据集基于 SQuAD 问题回答数据集，经过翻译和改编以适应问题生成任务。

许可信息: 数据集内容受 Creative Commons Attribution-NonCommercial 4.0 International License (CC BY-NC 4.0) 限制，仅用于非商业研究目的。

5,000+

优质数据集

54 个

任务类型

进入经典数据集