five

ai4bharat/IndicQuestionGeneration

收藏
Hugging Face2022-10-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ai4bharat/IndicQuestionGeneration
下载链接
链接失效反馈
官方服务:
资源简介:
IndicQuestionGeneration是IndicNLG Suite发布的问题生成数据集。每个示例包含五个字段:id、squad_id、answer、context和question。该数据集以11种语言创建,包括阿萨姆语、孟加拉语、古吉拉特语、印地语、卡纳达语、马拉雅拉姆语、马拉地语、奥里亚语、旁遮普语、泰米尔语和泰卢固语。这是翻译数据,每种语言的示例完全相同,只是语言不同。每种语言的示例数量为98,027个。
提供机构:
ai4bharat
原始信息汇总

数据集概述

名称: IndicQuestionGeneration

描述: IndicQuestionGeneration 是一个多语言的问题生成数据集,作为 IndicNLG Suite 的一部分发布。该数据集包含11种语言的翻译数据,每种语言有98,027个样本。

语言:

  • Assamese (as)
  • Bengali (bn)
  • Gujarati (gu)
  • Kannada (kn)
  • Hindi (hi)
  • Malayalam (ml)
  • Marathi (mr)
  • Oriya (or)
  • Punjabi (pa)
  • Tamil (ta)
  • Telugu (te)

许可: Creative Commons Attribution-NonCommercial 4.0 International License (CC BY-NC 4.0)

任务: 问题生成

数据集结构

数据实例: 每个实例包含以下字段:

  • id (string): 唯一标识符。
  • squad_id (string): 在 Squad 数据集中的唯一标识符。
  • answer (string): 答案。
  • context (string): 上下文信息。
  • question (string): 生成的问题。

数据分割: 数据集在每种语言中分为训练集、开发集和测试集,具体样本数如下:

语言 ISO 639-1 代码 训练集 开发集 测试集
Assamese as 69,979 17,495 10,553
Bengali bn 69,979 17,495 10,553
Gujarati gu 69,979 17,495 10,553
Hindi hi 69,979 17,495 10,553
Kannada kn 69,979 17,495 10,553
Malayalam ml 69,979 17,495 10,553
Marathi mr 69,979 17,495 10,553
Oriya or 69,979 17,495 10,553
Punjabi pa 69,979 17,495 10,553
Tamil ta 69,979 17,495 10,553
Telugu te 69,979 17,495 10,553

数据集创建

源数据: 数据集基于 SQuAD 问题回答数据集,经过翻译和改编以适应问题生成任务。

许可信息: 数据集内容受 Creative Commons Attribution-NonCommercial 4.0 International License (CC BY-NC 4.0) 限制,仅用于非商业研究目的。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作