ai4bharat/IndicQuestionGeneration
收藏Hugging Face2022-10-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ai4bharat/IndicQuestionGeneration
下载链接
链接失效反馈官方服务:
资源简介:
IndicQuestionGeneration是IndicNLG Suite发布的问题生成数据集。每个示例包含五个字段:id、squad_id、answer、context和question。该数据集以11种语言创建,包括阿萨姆语、孟加拉语、古吉拉特语、印地语、卡纳达语、马拉雅拉姆语、马拉地语、奥里亚语、旁遮普语、泰米尔语和泰卢固语。这是翻译数据,每种语言的示例完全相同,只是语言不同。每种语言的示例数量为98,027个。
提供机构:
ai4bharat
原始信息汇总
数据集概述
名称: IndicQuestionGeneration
描述: IndicQuestionGeneration 是一个多语言的问题生成数据集,作为 IndicNLG Suite 的一部分发布。该数据集包含11种语言的翻译数据,每种语言有98,027个样本。
语言:
- Assamese (as)
- Bengali (bn)
- Gujarati (gu)
- Kannada (kn)
- Hindi (hi)
- Malayalam (ml)
- Marathi (mr)
- Oriya (or)
- Punjabi (pa)
- Tamil (ta)
- Telugu (te)
许可: Creative Commons Attribution-NonCommercial 4.0 International License (CC BY-NC 4.0)
任务: 问题生成
数据集结构
数据实例: 每个实例包含以下字段:
- id (string): 唯一标识符。
- squad_id (string): 在 Squad 数据集中的唯一标识符。
- answer (string): 答案。
- context (string): 上下文信息。
- question (string): 生成的问题。
数据分割: 数据集在每种语言中分为训练集、开发集和测试集,具体样本数如下:
| 语言 | ISO 639-1 代码 | 训练集 | 开发集 | 测试集 |
|---|---|---|---|---|
| Assamese | as | 69,979 | 17,495 | 10,553 |
| Bengali | bn | 69,979 | 17,495 | 10,553 |
| Gujarati | gu | 69,979 | 17,495 | 10,553 |
| Hindi | hi | 69,979 | 17,495 | 10,553 |
| Kannada | kn | 69,979 | 17,495 | 10,553 |
| Malayalam | ml | 69,979 | 17,495 | 10,553 |
| Marathi | mr | 69,979 | 17,495 | 10,553 |
| Oriya | or | 69,979 | 17,495 | 10,553 |
| Punjabi | pa | 69,979 | 17,495 | 10,553 |
| Tamil | ta | 69,979 | 17,495 | 10,553 |
| Telugu | te | 69,979 | 17,495 | 10,553 |
数据集创建
源数据: 数据集基于 SQuAD 问题回答数据集,经过翻译和改编以适应问题生成任务。
许可信息: 数据集内容受 Creative Commons Attribution-NonCommercial 4.0 International License (CC BY-NC 4.0) 限制,仅用于非商业研究目的。



