ai4bharat/IndicWikiBio

Name: ai4bharat/IndicWikiBio
Creator: ai4bharat
Published: 2022-10-13 06:08:34
License: 暂无描述

Hugging Face2022-10-13 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/ai4bharat/IndicWikiBio

下载链接

链接失效反馈

官方服务：

资源简介：

IndicWikiBio数据集是IndicNLG Suite的一部分，包含九种印度语言（阿萨姆语、孟加拉语、印地语、卡纳达语、马拉雅拉姆语、奥里亚语、旁遮普语、泰米尔语和泰卢固语）的实例。每个实例包含四个字段：id、infobox、serialized_infobox和summary。数据集的总大小为57,426个实例，分布在训练、测试和验证集中。该数据集主要用于条件文本生成任务。

annotations_creators: - 无标注 language_creators: - 现有语料采集 language: - 阿萨姆语（as） - 孟加拉语（bn） - 印地语（hi） - 卡纳达语（kn） - 马拉雅拉姆语（ml） - 奥里亚语（or） - 旁遮普语（pa） - 泰米尔语（ta） - 泰卢固语（te） license: - 知识共享署名-非商业性使用4.0国际许可协议（CC BY-NC 4.0） multilinguality: - 多语言 pretty_name: IndicWikiBio size_categories: - 1960 < 样本量 < 11502 source_datasets: - 无。原始数据源自www.wikimedia.org. task_categories: - 条件文本生成（conditional-text-generation） task_ids: - 其他维基人物式条件文本生成（conditional-text-generation-other-wikibio） --- # 「IndicWikiBio」数据集卡片 ## 目录 - [数据集卡片制作指南](#dataset-card-creation-guide) - [目录](#table-of-contents) - [数据集概述](#dataset-description) - [数据集总结](#dataset-summary) - [支持任务与排行榜](#supported-tasks-and-leaderboards) - [语言覆盖](#languages) - [数据集结构](#dataset-structure) - [数据样例](#data-instances) - [数据字段](#data-fields) - [数据划分](#data-splits) - [数据集构建](#dataset-creation) - [构建初衷](#curation-rationale) - [源数据](#source-data) - [初始数据收集与标准化](#initial-data-collection-and-normalization) - [源语言生产者](#who-are-the-source-language-producers) - [标注信息](#annotations) - [标注流程](#annotation-process) - [标注人员](#who-are-the-annotators) - [个人与敏感信息](#personal-and-sensitive-information) - [数据集使用注意事项](#considerations-for-using-the-data) - [数据集社会影响](#social-impact-of-dataset) - [偏差讨论](#discussion-of-biases) - [其他已知局限](#other-known-limitations) - [附加信息](#additional-information) - [数据集维护者](#dataset-curators) - [许可信息](#licensing-information) - [引用信息](#citation-information) - [贡献说明](#contributions) ## 数据集概述 - **主页：** https://indicnlp.ai4bharat.org/indicnlg-suite - **论文：** [IndicNLG套件：面向印度语言多自然语言生成任务的多语言数据集](https://arxiv.org/abs/2203.05437) - **联系人：** 无 ### 数据集总结本数据集为IndicNLG套件中的WikiBio数据集，每个样本包含四个字段：唯一标识符（id）、信息框（infobox）、序列化信息框（serialized infobox）与摘要（summary）。本数据集涵盖阿萨姆语（as）、孟加拉语（bn）、印地语（hi）、卡纳达语（kn）、马拉雅拉姆语（ml）、奥里亚语（or）、旁遮普语（pa）、泰米尔语（ta）与泰卢固语（te）共9种语言，总样本量为57426。 ### 支持任务与排行榜 **任务：** WikiBio **排行榜：** 当前本数据集暂无公开排行榜。 ### 语言覆盖 - `阿萨姆语 (as)` - `孟加拉语 (bn)` - `卡纳达语 (kn)` - `印地语 (hi)` - `马拉雅拉姆语 (ml)` - `奥里亚语 (or)` - `旁遮普语 (pa)` - `泰米尔语 (ta)` - `泰卢固语 (te)` ## 数据集结构 ### 数据样例以下展示了印地语（hi）数据集的一条随机样例，格式为JSON。 json { "id": 26, "infobox": "name_1:सी॰ name_2:एल॰ name_3:रुआला office_1:सांसद office_2:- office_3:मिजोरम office_4:लोक office_5:सभा office_6:निर्वाचन office_7:क्षेत्र office_8:। office_9:मिजोरम term_1:2014 term_2:से term_3:2019 nationality_1:भारतीय", "serialized_infobox": "<TAG> name </TAG> सी॰ एल॰ रुआला <TAG> office </TAG> सांसद - मिजोरम लोक सभा निर्वाचन क्षेत्र । मिजोरम <TAG> term </TAG> 2014 से 2019 <TAG> nationality </TAG> भारतीय", "summary": "सी॰ एल॰ रुआला भारत की सोलहवीं लोक सभा के सांसद हैं।" } ### 数据字段 - `id (string)`: 唯一标识符。 - `infobox (string)`: 原始信息框。 - `serialized_infobox (string)`: 作为输入的序列化信息框。 - `summary (string)`: 信息框摘要/维基百科页面首行内容。 ### 数据划分以下为各语言数据集各划分的样本量。 | 语言 | ISO 639-1代码 | 训练集 | 测试集 | 验证集 | |--------------|---------------|---------|--------|--------| | 阿萨姆语 | as | 1,300 | 391 | 381 | | 孟加拉语 | bn | 4,615 | 1,521 | 1,567 | | 印地语 | hi | 5,684 | 1,919 | 1,853 | | 卡纳达语 | kn | 1,188 | 389 | 383 | | 马拉雅拉姆语 | ml | 5,620 | 1,835 | 1,896 | | 奥里亚语 | or | 1,687 | 558 | 515 | | 旁遮普语 | pa | 3,796 | 1,227 | 1,331 | | 泰米尔语 | ta | 8,169 | 2,701 | 2,632 | | 泰卢固语 | te | 2,594 | 854 | 820 | ## 数据集构建 ### 构建初衷详见论文 ### 源数据无 #### 初始数据收集与标准化详见论文 #### 源语言生产者详见论文 ### 标注信息需补充更多信息 #### 标注流程需补充更多信息 #### 标注人员需补充更多信息 ### 个人与敏感信息需补充更多信息 ## 数据集使用注意事项 ### 数据集社会影响需补充更多信息 ### 偏差讨论需补充更多信息 ### 其他已知局限需补充更多信息 ## 附加信息 ### 数据集维护者需补充更多信息 ### 许可信息本仓库内容仅可用于非商业性研究用途，受《知识共享署名-非商业性使用4.0国际许可协议（CC BY-NC 4.0）》约束。数据集内容的版权归原版权所有者所有。 ### 引用信息若您使用本数据集、模型或代码模块，请引用以下论文： bibtex @inproceedings{Kumar2022IndicNLGSM, title={IndicNLG Suite: Multilingual Datasets for Diverse NLG Tasks in Indic Languages}, author={Aman Kumar and Himani Shrotriya and Prachi Sahu and Raj Dabre and Ratish Puduppully and Anoop Kunchukuttan and Amogh Mishra and Mitesh M. Khapra and Pratyush Kumar}, year={2022}, url = "https://arxiv.org/abs/2203.05437", } ### 贡献说明详见论文

提供机构：

ai4bharat

原始信息汇总

数据集概述

数据集名称

名称: IndicWikiBio
别名: WikiBio

数据集详情

语言: 包含9种语言，包括Assamese (as), Bengali (bn), Kannada (kn), Hindi (hi), Malayalam (ml), Oriya (or), Punjabi (pa), Tamil (ta), Telugu (te)
许可证: Creative Commons Attribution-NonCommercial 4.0 International License (CC BY-NC 4.0)
多语言性: 多语言
大小: 总计57,426条数据，每种语言的数据量在1960到11,502之间
来源: 原始数据来源于www.wikimedia.org
任务类别: 条件文本生成
任务ID: 条件文本生成-其他-wikibio

数据集结构

数据实例: 每个实例包含id, infobox, serialized infobox, summary四个字段
数据字段:
- id (string): 唯一标识符
- infobox (string): 原始信息框
- serialized_infobox (string): 序列化信息框作为输入
- summary (string): 信息框摘要/维基百科页面的第一行

数据分割: 数据集分为训练集、测试集和验证集，具体分布如下：

语言	ISO 639-1代码	训练集	测试集	验证集
Assamese	as	1,300	391	381
Bengali	bn	4,615	1,521	1,567
Hindi	hi	5,684	1,919	1,853
Kannada	kn	1,188	389	383
Malayalam	ml	5,620	1,835	1,896
Oriya	or	1,687	558	515
Punjabi	pa	3,796	1,227	1,331
Tamil	ta	8,169	2,701	2,632
Telugu	te	2,594	854	820

支持的任务和排行榜

任务: WikiBio
排行榜: 目前没有排行榜

数据集创建

来源数据: 原始数据收集自www.wikimedia.org
许可证信息: 本仓库内容仅限于非商业研究目的，根据Creative Commons Attribution-NonCommercial 4.0 International License (CC BY-NC 4.0)。数据集内容的版权属于原始版权持有者。
引用信息: 使用任何数据集、模型或代码模块时，请引用以下论文：

@inproceedings{Kumar2022IndicNLGSM, title={IndicNLG Suite: Multilingual Datasets for Diverse NLG Tasks in Indic Languages}, author={Aman Kumar and others}, year={2022}, url = "https://arxiv.org/abs/2203.05437", }

5,000+

优质数据集

54 个

任务类型

进入经典数据集