five

ai4bharat/IndicParaphrase

收藏
Hugging Face2022-10-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ai4bharat/IndicParaphrase
下载链接
链接失效反馈
官方服务:
资源简介:
--- annotations_creators: - no-annotation language_creators: - found language: - as - bn - gu - hi - kn - ml - mr - or - pa - ta - te license: - cc-by-nc-4.0 multilinguality: - multilingual pretty_name: IndicParaphrase size_categories: - 1M<n<10M source_datasets: - original task_categories: - conditional-text-generation task_ids: - conditional-text-generation-other-paraphrase-generation --- # Dataset Card for "IndicParaphrase" ## Table of Contents - [Dataset Card Creation Guide](#dataset-card-creation-guide) - [Table of Contents](#table-of-contents) - [Dataset Description](#dataset-description) - [Dataset Summary](#dataset-summary) - [Supported Tasks and Leaderboards](#supported-tasks-and-leaderboards) - [Languages](#languages) - [Dataset Structure](#dataset-structure) - [Data Instances](#data-instances) - [Data Fields](#data-fields) - [Data Splits](#data-splits) - [Dataset Creation](#dataset-creation) - [Curation Rationale](#curation-rationale) - [Source Data](#source-data) - [Initial Data Collection and Normalization](#initial-data-collection-and-normalization) - [Who are the source language producers?](#who-are-the-source-language-producers) - [Annotations](#annotations) - [Annotation process](#annotation-process) - [Who are the annotators?](#who-are-the-annotators) - [Personal and Sensitive Information](#personal-and-sensitive-information) - [Considerations for Using the Data](#considerations-for-using-the-data) - [Social Impact of Dataset](#social-impact-of-dataset) - [Discussion of Biases](#discussion-of-biases) - [Other Known Limitations](#other-known-limitations) - [Additional Information](#additional-information) - [Dataset Curators](#dataset-curators) - [Licensing Information](#licensing-information) - [Citation Information](#citation-information) - [Contributions](#contributions) ## Dataset Description - **Homepage:** https://indicnlp.ai4bharat.org/indicnlg-suite - **Paper:** [IndicNLG Suite: Multilingual Datasets for Diverse NLG Tasks in Indic Languages](https://arxiv.org/abs/2203.05437) - **Point of Contact:** ### Dataset Summary IndicParaphrase is the paraphrasing dataset released as part of IndicNLG Suite. Each input is paired with up to 5 references. We create this dataset in eleven languages including as, bn, gu, hi, kn, ml, mr, or, pa, ta, te. The total size of the dataset is 5.57M. ### Supported Tasks and Leaderboards **Tasks:** Paraphrase generation **Leaderboards:** Currently there is no Leaderboard for this dataset. ### Languages - `Assamese (as)` - `Bengali (bn)` - `Gujarati (gu)` - `Kannada (kn)` - `Hindi (hi)` - `Malayalam (ml)` - `Marathi (mr)` - `Oriya (or)` - `Punjabi (pa)` - `Tamil (ta)` - `Telugu (te)` ## Dataset Structure ### Data Instances One example from the `hi` dataset is given below in JSON format. ``` { 'id': '1', 'input': 'निजी क्षेत्र में प्रदेश की 75 प्रतिशत नौकरियां हरियाणा के युवाओं के लिए आरक्षित की जाएगी।', 'references': ['प्रदेश के युवाओं को निजी उद्योगों में 75 प्रतिशत आरक्षण देंगे।', 'युवाओं के लिए हरियाणा की सभी प्राइवेट नौकरियों में 75 प्रतिशत आरक्षण लागू किया जाएगा।', 'निजी क्षेत्र में 75 प्रतिशत आरक्षित लागू कर प्रदेश के युवाओं का रोजगार सुनिश्चत किया जाएगा।', 'प्राईवेट कम्पनियों में हरियाणा के नौजवानों को 75 प्रतिशत नौकरियां में आरक्षित की जाएगी।', 'प्रदेश की प्राइवेट फैक्टरियों में 75 फीसदी रोजगार हरियाणा के युवाओं के लिए आरक्षित किए जाएंगे।'], 'target': 'प्रदेश के युवाओं को निजी उद्योगों में 75 प्रतिशत आरक्षण देंगे।' } ``` ### Data Fields - `id (string)`: Unique identifier. - `pivot (string)`: English sentence used as the pivot - `input (string)`: Input sentence - `references (list of strings)`: Paraphrases of `input`, ordered according to the least n-gram overlap - `target (string)`: The first reference (most dissimilar paraphrase) ### Data Splits We first select 10K instances each for the validation and test and put remaining in the training dataset. `Assamese (as)`, due to its low-resource nature, could only be split into validation and test sets with 4,420 examples each. Individual dataset with train-dev-test example counts are given below: Language | ISO 639-1 Code |Train | Dev | Test | --------------|----------------|-------|-----|------| Assamese | as | - | 4,420 | 4,420 | Bengali | bn | 890,445 | 10,000 | 10,000 | Gujarati | gu | 379,202 | 10,000 | 10,000 | Hindi | hi | 929,507 | 10,000 | 10,000 | Kannada | kn | 522,148 | 10,000 | 10,000 | Malayalam | ml |761,933 | 10,000 | 10,000 | Marathi | mr |406,003 | 10,000 | 10,000 | Oriya | or | 105,970 | 10,000 | 10,000 | Punjabi | pa | 266,704 | 10,000 | 10,000 | Tamil | ta | 497,798 | 10,000 | 10,000 | Telugu | te | 596,283 | 10,000 | 10,000 | ## Dataset Creation ### Curation Rationale [More information needed] ### Source Data [Samanantar dataset](https://indicnlp.ai4bharat.org/samanantar/) #### Initial Data Collection and Normalization [Detailed in the paper](https://arxiv.org/abs/2203.05437) #### Who are the source language producers? [Detailed in the paper](https://arxiv.org/abs/2203.05437) ### Annotations [More information needed] #### Annotation process [More information needed] #### Who are the annotators? [More information needed] ### Personal and Sensitive Information [More information needed] ## Considerations for Using the Data ### Social Impact of Dataset [More information needed] ### Discussion of Biases [More information needed] ### Other Known Limitations [More information needed] ## Additional Information ### Dataset Curators [More information needed] ### Licensing Information Contents of this repository are restricted to only non-commercial research purposes under the [Creative Commons Attribution-NonCommercial 4.0 International License (CC BY-NC 4.0)](https://creativecommons.org/licenses/by-nc/4.0/). Copyright of the dataset contents belongs to the original copyright holders. ### Citation Information If you use any of the datasets, models or code modules, please cite the following paper: ``` @inproceedings{Kumar2022IndicNLGSM, title={IndicNLG Suite: Multilingual Datasets for Diverse NLG Tasks in Indic Languages}, author={Aman Kumar and Himani Shrotriya and Prachi Sahu and Raj Dabre and Ratish Puduppully and Anoop Kunchukuttan and Amogh Mishra and Mitesh M. Khapra and Pratyush Kumar}, year={2022}, url = "https://arxiv.org/abs/2203.05437" } ``` ### Contributions
提供机构:
ai4bharat
原始信息汇总

数据集概述

数据集描述

数据集摘要

IndicParaphrase 是 IndicNLG Suite 发布的一个释义数据集。每个输入配对有最多 5 个参考句子。该数据集包含 11 种语言:阿萨姆语(as)、孟加拉语(bn)、古吉拉特语(gu)、印地语(hi)、卡纳达语(kn)、马拉雅拉姆语(ml)、马拉地语(mr)、奥里亚语(or)、旁遮普语(pa)、泰米尔语(ta)和泰卢固语(te)。数据集总大小为 5.57M。

支持的任务和排行榜

  • 任务: 释义生成
  • 排行榜: 目前没有排行榜。

语言

  • 阿萨姆语(as)
  • 孟加拉语(bn)
  • 古吉拉特语(gu)
  • 印地语(hi)
  • 卡纳达语(kn)
  • 马拉雅拉姆语(ml)
  • 马拉地语(mr)
  • 奥里亚语(or)
  • 旁遮普语(pa)
  • 泰米尔语(ta)
  • 泰卢固语(te)

数据集结构

数据实例

一个来自印地语(hi)数据集的示例,以 JSON 格式展示: json { "id": "1", "input": "निजी क्षेत्र में प्रदेश की 75 प्रतिशत नौकरियां हरियाणा के युवाओं के लिए आरक्षित की जाएगी।", "references": [ "प्रदेश के युवाओं को निजी उद्योगों में 75 प्रतिशत आरक्षण देंगे।", "युवाओं के लिए हरियाणा की सभी प्राइवेट नौकरियों में 75 प्रतिशत आरक्षण लागू किया जाएगा।", "निजी क्षेत्र में 75 प्रतिशत आरक्षित लागू कर प्रदेश के युवाओं का रोजगार सुनिश्चत किया जाएगा।", "प्राईवेट कम्पनियों में हरियाणा के नौजवानों को 75 प्रतिशत नौकरियां में आरक्षित की जाएगी।", "प्रदेश की प्राइवेट फैक्टरियों में 75 फीसदी रोजगार हरियाणा के युवाओं के लिए आरक्षित किए जाएंगे।" ], "target": "प्रदेश के युवाओं को निजी उद्योगों में 75 प्रतिशत आरक्षण देंगे।" }

数据字段

  • id (string): 唯一标识符。
  • pivot (string): 用作枢轴的英语句子。
  • input (string): 输入句子。
  • references (list of strings): input 的释义,按最小的 n-gram 重叠顺序排列。
  • target (string): 第一个参考句子(最不相似的释义)。

数据分割

数据集首先选择每个验证和测试集各 10K 实例,剩余的放入训练数据集。阿萨姆语(as)由于其低资源特性,只能分为验证和测试集,各有 4,420 个示例。各语言数据集的训练-开发-测试示例数量如下:

语言 ISO 639-1 代码 训练 开发 测试
阿萨姆语 as - 4,420 4,420
孟加拉语 bn 890,445 10,000 10,000
古吉拉特语 gu 379,202 10,000 10,000
印地语 hi 929,507 10,000 10,000
卡纳达语 kn 522,148 10,000 10,000
马拉雅拉姆语 ml 761,933 10,000 10,000
马拉地语 mr 406,003 10,000 10,000
奥里亚语 or 105,970 10,000 10,000
旁遮普语 pa 266,704 10,000 10,000
泰米尔语 ta 497,798 10,000 10,000
泰卢固语 te 596,283 10,000 10,000

数据集创建

数据集策展理由

[更多信息需要]

源数据

Samanantar 数据集

初始数据收集和规范化

详细信息在论文中

源语言生产者是谁?

详细信息在论文中

注释

[更多信息需要]

注释过程

[更多信息需要]

注释者是谁?

[更多信息需要]

个人和敏感信息

[更多信息需要]

使用数据的注意事项

数据集的社会影响

[更多信息需要]

偏见的讨论

[更多信息需要]

其他已知限制

[更多信息需要]

附加信息

数据集策展人

[更多信息需要]

许可信息

本仓库的内容仅限于非商业研究目的,遵守Creative Commons Attribution-NonCommercial 4.0 International License (CC BY-NC 4.0)。数据集内容的版权属于原始版权持有者。

引用信息

如果您使用任何数据集、模型或代码模块,请引用以下论文:

@inproceedings{Kumar2022IndicNLGSM, title={IndicNLG Suite: Multilingual Datasets for Diverse NLG Tasks in Indic Languages}, author={Aman Kumar and Himani Shrotriya and Prachi Sahu and Raj Dabre and Ratish Puduppully and Anoop Kunchukuttan and Amogh Mishra and Mitesh M. Khapra and Pratyush Kumar}, year={2022}, url = "https://arxiv.org/abs/2203.05437" }

贡献

[更多信息需要]

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作