five

ai4bharat/IndicWikiBio

收藏
Hugging Face2022-10-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ai4bharat/IndicWikiBio
下载链接
链接失效反馈
官方服务:
资源简介:
IndicWikiBio数据集是IndicNLG Suite的一部分,包含九种印度语言(阿萨姆语、孟加拉语、印地语、卡纳达语、马拉雅拉姆语、奥里亚语、旁遮普语、泰米尔语和泰卢固语)的实例。每个实例包含四个字段:id、infobox、serialized_infobox和summary。数据集的总大小为57,426个实例,分布在训练、测试和验证集中。该数据集主要用于条件文本生成任务。

annotations_creators: - 无标注 language_creators: - 现有语料采集 language: - 阿萨姆语(as) - 孟加拉语(bn) - 印地语(hi) - 卡纳达语(kn) - 马拉雅拉姆语(ml) - 奥里亚语(or) - 旁遮普语(pa) - 泰米尔语(ta) - 泰卢固语(te) license: - 知识共享署名-非商业性使用4.0国际许可协议(CC BY-NC 4.0) multilinguality: - 多语言 pretty_name: IndicWikiBio size_categories: - 1960 < 样本量 < 11502 source_datasets: - 无。原始数据源自www.wikimedia.org. task_categories: - 条件文本生成(conditional-text-generation) task_ids: - 其他维基人物式条件文本生成(conditional-text-generation-other-wikibio) --- # 「IndicWikiBio」数据集卡片 ## 目录 - [数据集卡片制作指南](#dataset-card-creation-guide) - [目录](#table-of-contents) - [数据集概述](#dataset-description) - [数据集总结](#dataset-summary) - [支持任务与排行榜](#supported-tasks-and-leaderboards) - [语言覆盖](#languages) - [数据集结构](#dataset-structure) - [数据样例](#data-instances) - [数据字段](#data-fields) - [数据划分](#data-splits) - [数据集构建](#dataset-creation) - [构建初衷](#curation-rationale) - [源数据](#source-data) - [初始数据收集与标准化](#initial-data-collection-and-normalization) - [源语言生产者](#who-are-the-source-language-producers) - [标注信息](#annotations) - [标注流程](#annotation-process) - [标注人员](#who-are-the-annotators) - [个人与敏感信息](#personal-and-sensitive-information) - [数据集使用注意事项](#considerations-for-using-the-data) - [数据集社会影响](#social-impact-of-dataset) - [偏差讨论](#discussion-of-biases) - [其他已知局限](#other-known-limitations) - [附加信息](#additional-information) - [数据集维护者](#dataset-curators) - [许可信息](#licensing-information) - [引用信息](#citation-information) - [贡献说明](#contributions) ## 数据集概述 - **主页:** https://indicnlp.ai4bharat.org/indicnlg-suite - **论文:** [IndicNLG套件:面向印度语言多自然语言生成任务的多语言数据集](https://arxiv.org/abs/2203.05437) - **联系人:** 无 ### 数据集总结 本数据集为IndicNLG套件中的WikiBio数据集,每个样本包含四个字段:唯一标识符(id)、信息框(infobox)、序列化信息框(serialized infobox)与摘要(summary)。本数据集涵盖阿萨姆语(as)、孟加拉语(bn)、印地语(hi)、卡纳达语(kn)、马拉雅拉姆语(ml)、奥里亚语(or)、旁遮普语(pa)、泰米尔语(ta)与泰卢固语(te)共9种语言,总样本量为57426。 ### 支持任务与排行榜 **任务:** WikiBio **排行榜:** 当前本数据集暂无公开排行榜。 ### 语言覆盖 - `阿萨姆语 (as)` - `孟加拉语 (bn)` - `卡纳达语 (kn)` - `印地语 (hi)` - `马拉雅拉姆语 (ml)` - `奥里亚语 (or)` - `旁遮普语 (pa)` - `泰米尔语 (ta)` - `泰卢固语 (te)` ## 数据集结构 ### 数据样例 以下展示了印地语(hi)数据集的一条随机样例,格式为JSON。 json { "id": 26, "infobox": "name_1:सी॰ name_2:एल॰ name_3:रुआला office_1:सांसद office_2:- office_3:मिजोरम office_4:लोक office_5:सभा office_6:निर्वाचन office_7:क्षेत्र office_8:। office_9:मिजोरम term_1:2014 term_2:से term_3:2019 nationality_1:भारतीय", "serialized_infobox": "<TAG> name </TAG> सी॰ एल॰ रुआला <TAG> office </TAG> सांसद - मिजोरम लोक सभा निर्वाचन क्षेत्र । मिजोरम <TAG> term </TAG> 2014 से 2019 <TAG> nationality </TAG> भारतीय", "summary": "सी॰ एल॰ रुआला भारत की सोलहवीं लोक सभा के सांसद हैं।" } ### 数据字段 - `id (string)`: 唯一标识符。 - `infobox (string)`: 原始信息框。 - `serialized_infobox (string)`: 作为输入的序列化信息框。 - `summary (string)`: 信息框摘要/维基百科页面首行内容。 ### 数据划分 以下为各语言数据集各划分的样本量。 | 语言 | ISO 639-1代码 | 训练集 | 测试集 | 验证集 | |--------------|---------------|---------|--------|--------| | 阿萨姆语 | as | 1,300 | 391 | 381 | | 孟加拉语 | bn | 4,615 | 1,521 | 1,567 | | 印地语 | hi | 5,684 | 1,919 | 1,853 | | 卡纳达语 | kn | 1,188 | 389 | 383 | | 马拉雅拉姆语 | ml | 5,620 | 1,835 | 1,896 | | 奥里亚语 | or | 1,687 | 558 | 515 | | 旁遮普语 | pa | 3,796 | 1,227 | 1,331 | | 泰米尔语 | ta | 8,169 | 2,701 | 2,632 | | 泰卢固语 | te | 2,594 | 854 | 820 | ## 数据集构建 ### 构建初衷 详见论文 ### 源数据 无 #### 初始数据收集与标准化 详见论文 #### 源语言生产者 详见论文 ### 标注信息 需补充更多信息 #### 标注流程 需补充更多信息 #### 标注人员 需补充更多信息 ### 个人与敏感信息 需补充更多信息 ## 数据集使用注意事项 ### 数据集社会影响 需补充更多信息 ### 偏差讨论 需补充更多信息 ### 其他已知局限 需补充更多信息 ## 附加信息 ### 数据集维护者 需补充更多信息 ### 许可信息 本仓库内容仅可用于非商业性研究用途,受《知识共享署名-非商业性使用4.0国际许可协议(CC BY-NC 4.0)》约束。数据集内容的版权归原版权所有者所有。 ### 引用信息 若您使用本数据集、模型或代码模块,请引用以下论文: bibtex @inproceedings{Kumar2022IndicNLGSM, title={IndicNLG Suite: Multilingual Datasets for Diverse NLG Tasks in Indic Languages}, author={Aman Kumar and Himani Shrotriya and Prachi Sahu and Raj Dabre and Ratish Puduppully and Anoop Kunchukuttan and Amogh Mishra and Mitesh M. Khapra and Pratyush Kumar}, year={2022}, url = "https://arxiv.org/abs/2203.05437", } ### 贡献说明 详见论文
提供机构:
ai4bharat
原始信息汇总

数据集概述

数据集名称

  • 名称: IndicWikiBio
  • 别名: WikiBio

数据集详情

  • 语言: 包含9种语言,包括Assamese (as), Bengali (bn), Kannada (kn), Hindi (hi), Malayalam (ml), Oriya (or), Punjabi (pa), Tamil (ta), Telugu (te)
  • 许可证: Creative Commons Attribution-NonCommercial 4.0 International License (CC BY-NC 4.0)
  • 多语言性: 多语言
  • 大小: 总计57,426条数据,每种语言的数据量在1960到11,502之间
  • 来源: 原始数据来源于www.wikimedia.org
  • 任务类别: 条件文本生成
  • 任务ID: 条件文本生成-其他-wikibio

数据集结构

  • 数据实例: 每个实例包含id, infobox, serialized infobox, summary四个字段

  • 数据字段:

    • id (string): 唯一标识符
    • infobox (string): 原始信息框
    • serialized_infobox (string): 序列化信息框作为输入
    • summary (string): 信息框摘要/维基百科页面的第一行
  • 数据分割: 数据集分为训练集、测试集和验证集,具体分布如下:

    语言 ISO 639-1代码 训练集 测试集 验证集
    Assamese as 1,300 391 381
    Bengali bn 4,615 1,521 1,567
    Hindi hi 5,684 1,919 1,853
    Kannada kn 1,188 389 383
    Malayalam ml 5,620 1,835 1,896
    Oriya or 1,687 558 515
    Punjabi pa 3,796 1,227 1,331
    Tamil ta 8,169 2,701 2,632
    Telugu te 2,594 854 820

支持的任务和排行榜

  • 任务: WikiBio
  • 排行榜: 目前没有排行榜

数据集创建

  • 来源数据: 原始数据收集自www.wikimedia.org

  • 许可证信息: 本仓库内容仅限于非商业研究目的,根据Creative Commons Attribution-NonCommercial 4.0 International License (CC BY-NC 4.0)。数据集内容的版权属于原始版权持有者。

  • 引用信息: 使用任何数据集、模型或代码模块时,请引用以下论文:

    @inproceedings{Kumar2022IndicNLGSM, title={IndicNLG Suite: Multilingual Datasets for Diverse NLG Tasks in Indic Languages}, author={Aman Kumar and others}, year={2022}, url = "https://arxiv.org/abs/2203.05437", }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作