jerin/pib

Name: jerin/pib
Creator: jerin
Published: 2024-01-18 11:12:59
License: 暂无描述

Hugging Face2024-01-18 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/jerin/pib

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个大规模的句子对齐语料库，涵盖了11种印度语言，包括英语、孟加拉语、古吉拉特语、印地语、马拉雅拉姆语、马拉地语、旁遮普语、奥里亚语、泰米尔语、泰卢固语和乌尔都语。数据集的主要任务是机器翻译，支持多种语言对的翻译任务。数据集的结构包括多个语言对的翻译数据，每个语言对的数据都包含在“train”拆分中。

任务类别： - 机器翻译 - 文本生成 - 掩码填充任务子类型： - 语言建模 - 掩码语言建模多语言类型： - 机器翻译涉及语言： - 英语（en） - 孟加拉语（bn） - 古吉拉特语（gu） - 印地语（hi） - 马拉雅拉姆语（ml） - 马拉地语（mr） - 奥里亚语（or） - 旁遮普语（pa） - 泰米尔语（ta） - 泰卢固语（te） - 乌尔都语（ur）语言创建者： - 其他标注创建者： - 无标注源数据集： - 原始数据集数据规模类别： - 10万<n<100万 - 1万<n<10万许可协议： - CC BY 4.0（知识共享署名4.0国际许可协议） PapersWithCode ID：无展示名称：CVIT PIB # CVIT PIB 数据集卡片 ## 目录 - [目录](#目录) - [数据集描述](#数据集描述) - [数据集概览](#数据集概览) - [支持任务与基准测试平台](#支持任务与基准测试平台) - [涉及语言](#涉及语言) - [数据集结构](#数据集结构) - [数据实例](#数据实例) - [数据字段](#数据字段) - [数据划分](#数据划分) - [数据集构建](#数据集构建) - [筛选依据](#筛选依据) - [源数据](#源数据) - [标注信息](#标注信息) - [个人与敏感信息](#个人与敏感信息) - [数据集使用注意事项](#数据集使用注意事项) - [数据集的社会影响](#数据集的社会影响) - [偏差讨论](#偏差讨论) - [其他已知局限性](#其他已知局限性) - [附加信息](#附加信息) - [数据集维护者](#数据集维护者) - [许可信息](#许可信息) - [引用信息](#引用信息) - [贡献声明](#贡献声明) ## 数据集描述 - **主页**：http://preon.iiit.ac.in/~jerin/bhasha/ - **相关论文**：https://arxiv.org/abs/2008.04860 - **联系方式**：[邮件列表](cvit-bhasha@googlegroups.com) ### 数据集概览本数据集为覆盖11种印度语言的大规模句子对齐平行语料库，即CVIT-PIB语料库，是目前公开可用的规模最大的印度语言多语种平行语料库。 ### 支持任务与基准测试平台 - 机器翻译 ### 涉及语言覆盖以下语言的平行数据：[英语（en）、孟加拉语（bn）、古吉拉特语（gu）、印地语（hi）、马拉雅拉姆语（ml）、马拉地语（mr）、奥里亚语（or）、旁遮普语（pa）、泰米尔语（ta）、泰卢固语（te）、乌尔都语（ur）] ## 数据集结构 ### 数据实例以"gu-pa"（古吉拉特语-旁遮普语）语言对为例： { 'translation': { 'gu': 'એવો નિર્ણય લેવાયો હતો કે ખંતપૂર્વકની કામગીરી હાથ ધરવા, કાયદેસર અને ટેકનિકલ મૂલ્યાંકન કરવા, વેન્ચર કેપિટલ ઇન્વેસ્ટમેન્ટ સમિતિની બેઠક યોજવા વગેરે એઆઇએફને કરવામાં આવેલ પ્રતિબદ્ધતાના 0.50 ટકા સુધી અને બાકીની રકમ એફએફએસને પૂર્ણ કરવામાં આવશે.', 'pa': 'ਇਹ ਵੀ ਫੈਸਲਾ ਕੀਤਾ ਗਿਆ ਕਿ ਐੱਫਆਈਆਈ ਅਤੇ ਬਕਾਏ ਲਈ ਕੀਤੀਆਂ ਗਈਆਂ ਵਚਨਬੱਧਤਾਵਾਂ ਦੇ 0.50 % ਦੀ ਸੀਮਾ ਤੱਕ ਐੱਫਈਐੱਸ ਨੂੰ ਮਿਲਿਆ ਜਾਏਗਾ, ਇਸ ਨਾਲ ਉੱਦਮ ਪੂੰਜੀ ਨਿਵੇਸ਼ ਕਮੇਟੀ ਦੀ ਬੈਠਕ ਦਾ ਆਯੋਜਨ ਉਚਿਤ ਸਾਵਧਾਨੀ, ਕਾਨੂੰਨੀ ਅਤੇ ਤਕਨੀਕੀ ਮੁੱਲਾਂਕਣ ਲਈ ਸੰਚਾਲਨ ਖਰਚ ਆਦਿ ਦੀ ਪੂਰਤੀ ਹੋਵੇਗੀ।' } } ### 数据字段 - `translation`：翻译字段，包含对应语言对的平行文本内容。 ### 数据划分本数据集仅包含单个"train"（训练集）划分。 ## 数据集构建 ### 筛选依据 [需补充更多信息] ### 源数据 #### 初始数据收集与标准化 [需补充更多信息] #### 源语言创作者是谁？ [需补充更多信息] ### 标注信息 #### 标注流程 [需补充更多信息] #### 标注者是谁？ [需补充更多信息] ### 个人与敏感信息 [需补充更多信息] ## 数据集使用注意事项 ### 数据集的社会影响 [需补充更多信息] ### 偏差讨论 [需补充更多信息] ### 其他已知局限性 [需补充更多信息] ## 附加信息 ### 数据集维护者 [需补充更多信息] ### 许可信息本数据集采用**知识共享署名4.0国际许可协议（CC BY 4.0）**。 ### 引用信息 @inproceedings{siripragada-etal-2020-multilingual, title = "A Multilingual Parallel Corpora Collection Effort for {I}ndian Languages", author = "Siripragada, Shashank and Philip, Jerin and Namboodiri, Vinay P. and Jawahar, C V", booktitle = "Proceedings of the 12th Language Resources and Evaluation Conference", month = may, year = "2020", address = "Marseille, France", publisher = "European Language Resources Association", url = "https://aclanthology.org/2020.lrec-1.462", pages = "3743--3751", language = "English", ISBN = "979-10-95546-34-4", } @article{2020, title={Revisiting Low Resource Status of Indian Languages in Machine Translation}, url={http://dx.doi.org/10.1145/3430984.3431026}, DOI={10.1145/3430984.3431026}, journal={8th ACM IKDD CODS and 26th COMAD}, publisher={ACM}, author={Philip, Jerin and Siripragada, Shashank and Namboodiri, Vinay P. and Jawahar, C. V.}, year={2020}, month={Dec} } ### 贡献声明感谢 [@vasudevgupta7](https://github.com/vasudevgupta7) 为本数据集的收录提供支持，同时感谢 [@albertvillanova](https://github.com/albertvillanova) 更新了该数据集的版本。 ### 数据集配置详情本数据集包含多组语言对配置，以下为配置名称列表： - 孟加拉语-英语（bn-en） - 孟加拉语-古吉拉特语（bn-gu） - 孟加拉语-印地语（bn-hi） - 孟加拉语-马拉雅拉姆语（bn-ml） - 孟加拉语-马拉地语（bn-mr） - 孟加拉语-奥里亚语（bn-or） - 孟加拉语-旁遮普语（bn-pa） - 孟加拉语-泰米尔语（bn-ta） - 孟加拉语-泰卢固语（bn-te） - 孟加拉语-乌尔都语（bn-ur） - 英语-古吉拉特语（en-gu） - 英语-印地语（en-hi） - 英语-马拉雅拉姆语（en-ml） - 英语-马拉地语（en-mr） - 英语-奥里亚语（en-or） - 英语-旁遮普语（en-pa） - 英语-泰米尔语（en-ta） - 英语-泰卢固语（en-te） - 英语-乌尔都语（en-ur） - 古吉拉特语-印地语（gu-hi） - 古吉拉特语-马拉雅拉姆语（gu-ml） - 古吉拉特语-马拉地语（gu-mr） - 古吉拉特语-奥里亚语（gu-or） - 古吉拉特语-旁遮普语（gu-pa） - 古吉拉特语-泰米尔语（gu-ta） - 古吉拉特语-泰卢固语（gu-te） - 古吉拉特语-乌尔都语（gu-ur） - 印地语-马拉雅拉姆语（hi-ml） - 印地语-马拉地语（hi-mr） - 印地语-奥里亚语（hi-or） - 印地语-旁遮普语（hi-pa） - 印地语-泰米尔语（hi-ta） - 印地语-泰卢固语（hi-te） - 印地语-乌尔都语（hi-ur） - 马拉雅拉姆语-马拉地语（ml-mr） - 马拉雅拉姆语-奥里亚语（ml-or） - 马拉雅拉姆语-旁遮普语（ml-pa） - 马拉雅拉姆语-泰米尔语（ml-ta） - 马拉雅拉姆语-泰卢固语（ml-te） - 马拉雅拉姆语-乌尔都语（ml-ur） - 马拉地语-奥里亚语（mr-or） - 马拉地语-旁遮普语（mr-pa） - 马拉地语-泰米尔语（mr-ta） - 马拉地语-泰卢固语（mr-te） - 马拉地语-乌尔都语（mr-ur） - 奥里亚语-旁遮普语（or-pa） - 奥里亚语-泰米尔语（or-ta） - 奥里亚语-泰卢固语（or-te） - 奥里亚语-乌尔都语（or-ur） - 旁遮普语-泰米尔语（pa-ta） - 旁遮普语-泰卢固语（pa-te） - 旁遮普语-乌尔都语（pa-ur） - 泰米尔语-泰卢固语（ta-te） - 泰米尔语-乌尔都语（ta-ur） - 泰卢固语-乌尔都语（te-ur）

提供机构：

jerin

原始信息汇总

数据集概述

任务类别

翻译
文本生成
填充掩码

任务标识

语言建模
掩码语言建模

多语言性

翻译

语言

语言创建者

其他

注释创建者

无注释

源数据集

原始

大小类别

100K<n<1M
10K<n<100K

许可证

cc-by-4.0

数据集配置信息

config_name: or-ur
- 特征:
  - 名称: translation
  - 数据类型:
    - 语言: or, ur
- 分割:
  - 名称: train
  - 字节数: 27790211
  - 示例数: 43766
  - 下载大小: 393352875
  - 数据集大小: 27790211
config_name: ml-or
- 特征:
  - 名称: translation
  - 数据类型:
    - 语言: ml, or
- 分割:
  - 名称: train
  - 字节数: 16011549
  - 示例数: 19413
  - 下载大小: 393352875
  - 数据集大小: 16011549
config_name: bn-ta
- 特征:
  - 名称: translation
  - 数据类型:
    - 语言: bn, ta
- 分割:
  - 名称: train
  - 字节数: 28706668
  - 示例数: 33005
  - 下载大小: 393352875
  - 数据集大小: 28706668
config_name: gu-mr
- 特征:
  - 名称: translation
  - 数据类型:
    - 语言: gu, mr
- 分割:
  - 名称: train
  - 字节数: 24253770
  - 示例数: 30766
  - 下载大小: 393352875
  - 数据集大小: 24253770
config_name: hi-or
- 特征:
  - 名称: translation
  - 数据类型:
    - 语言: hi, or
- 分割:
  - 名称: train
  - 字节数: 45086618
  - 示例数: 61070
  - 下载大小: 393352875
  - 数据集大小: 45086618
config_name: en-or
- 特征:
  - 名称: translation
  - 数据类型:
    - 语言: en, or
- 分割:
  - 名称: train
  - 字节数: 51258494
  - 示例数: 98230
  - 下载大小: 393352875
  - 数据集大小: 51258494
config_name: mr-ur
- 特征:
  - 名称: translation
  - 数据类型:
    - 语言: mr, ur
- 分割:
  - 名称: train
  - 字节数: 34053295
  - 示例数: 49691
  - 下载大小: 393352875
  - 数据集大小: 34053295
config_name: en-ta
- 特征:
  - 名称: translation
  - 数据类型:
    - 语言: en, ta
- 分割:
  - 名称: train
  - 字节数: 74931542
  - 示例数: 118759
  - 下载大小: 393352875
  - 数据集大小: 74931542
config_name: hi-ta
- 特征:
  - 名称: translation
  - 数据类型:
    - 语言: hi, ta
- 分割:
  - 名称: train
  - 字节数: 57628429
  - 示例数: 64945
  - 下载大小: 393352875
  - 数据集大小: 57628429
config_name: bn-en
- 特征:
  - 名称: translation
  - 数据类型:
    - 语言: bn, en
- 分割:
  - 名称: train
  - 字节数: 53291968
  - 示例数: 93560
  - 下载大小: 393352875
  - 数据集大小: 53291968
config_name: bn-or
- 特征:
  - 名称: translation
  - 数据类型:
    - 语言: bn, or
- 分割:
  - 名称: train
  - 字节数: 19819136
  - 示例数: 26456
  - 下载大小: 393352875
  - 数据集大小: 19819136
config_name: ml-ta
- 特征:
  - 名称: translation
  - 数据类型:
    - 语言: ml, ta
- 分割:
  - 名称: train
  - 字节数: 21685938
  - 示例数: 23609
  - 下载大小: 393352875
  - 数据集大小: 21685938
config_name: gu-ur
- 特征:
  - 名称: translation
  - 数据类型:
    - 语言: gu, ur
- 分割:
  - 名称: train
  - 字节数: 20312414
  - 示例数: 29938
  - 下载大小: 393352875
  - 数据集大小: 20312414
config_name: bn-ml
- 特征:
  - 名称: translation
  - 数据类型:
    - 语言: bn, ml
- 分割:
  - 名称: train
  - 字节数: 15545271
  - 示例数: 18149
  - 下载大小: 393352875
  - 数据集大小: 15545271
config_name: ml-pa
- 特征:
  - 名称: translation
  - 数据类型:
    - 语言: ml, pa
- 分割:
  - 名称: train
  - 字节数: 18114904
  - 示例数: 21978
  - 下载大小: 393352875
  - 数据集大小: 18114904
config_name: en-pa
- 特征:
  - 名称: translation
  - 数据类型:
    - 语言: en, pa
- 分割:
  - 名称: train
  - 字节数: 56316514
  - 示例数: 103296
  - 下载大小: 393352875
  - 数据集大小: 56316514
config_name: bn-hi
- 特征:
  - 名称: translation
  - 数据类型:
    - 语言: bn, hi
- 分割:
  - 名称: train
  - 字节数: 40970170
  - 示例数: 49598
  - 下载大小: 393352875
  - 数据集大小: 40970170
config_name: hi-pa
- 特征:
  - 名称: translation
  - 数据类型:
    - 语言: hi, pa
- 分割:
  - 名称: train
  - 字节数: 59293062
  - 示例数: 75200
  - 下载大小: 393352875
  - 数据集大小: 59293062
config_name: gu-te
- 特征:
  - 名称: translation
  - 数据类型:
    - 语言: gu, te
- 分割:
  - 名称: train
  - 字节数: 14517828
  - 示例数: 16335
  - 下载大小: 393352875
  - 数据集大小: 14517828
config_name: pa-ta
- 特征:
  - 名称: translation
  - 数据类型:
    - 语言: pa, ta
- 分割:
  - 名称: train
  - 字节数: 39144065
  - 示例数: 46349
  - 下载大小: 393352875
  - 数据集大小: 39144065
config_name: hi-ml
- 特征:
  - 名称: translation
  - 数据类型:
    - 语言: hi, ml
- 分割:
  - 名称: train
  - 字节数: 24015298
  - 示例数: 27167
  - 下载大小: 393352875
  - 数据集大小: 24015298
config_name: or-te
- 特征:
  - 名称: translation
  - 数据类型:
    - 语言: or, te
- 分割:
  - 名称: train
  - 字节数: 9011734
  - 示例数: 10475
  - 下载大小: 393352875
  - 数据集大小: 9011734
config_name: en-ml
- 特征:
  - 名称: translation
  - 数据类型:
    - 语言: en, ml
- 分割:
  - 名称: train
  - 字节数: 27754969
  - 示例数: 44986
  - 下载大小: 393352875
  - 数据集大小: 27754969
config_name: en-hi
- 特征:
  - 名称: translation
  - 数据类型:
    - 语言: en, hi
- 分割:
  - 名称: train
  - 字节数: 160009440
  - 示例数: 269594
  - 下载大小: 393352875
  - 数据集大小: 160009440
config_name: bn-pa
- 特征:
  - 名称: translation
  - 数据类型:
    - 语言: bn, pa
- 分割:
  - 名称: train
  - 字节数: 27522373
  - 示例数: 35109
  - 下载大小: 393352875
  - 数据集大小: 27522373
config_name: mr-te
- 特征:
  - 名称: translation
  - 数据类型:
    - 语言: mr, te
- 分割:
  - 名称: train
  - 字节数: 16838115
  - 示例数: 18179
  - 下载大小: 393352875
  - 数据集大小: 16838115
config_name: mr-pa
- 特征:
  - 名称: translation
  - 数据类型:
    - 语言: mr, pa
- 分割:
  - 名称: train
  - 字节数: 38720410
  - 示例数: 50418
  - 下载大小: 393352875
  - 数据集大小: 38720410
config_name: bn-te
- 特征:
  - 名称: translation
  - 数据类型:
    - 语言: bn, te
- 分割:
  - 名称: train
  - 字节数: 15529843
  - 示例数: 17605
  - 下载大小: 393352875
  - 数据集大小: 15529843
config_name: gu-hi
- 特征:
  - 名称: translation
  - 数据类型:
    - 语言: gu, hi
- 分割:
  - 名称: train
  - 字节数: 33606230
  - 示例数: 41587
  - 下载大小: 393352875
  - 数据集大小: 33606230
config_name: ta-ur
- 特征:
  - 名称: translation
  - 数据类型:
    - 语言: ta, ur
- 分割:
  - 名称: train
  - 字节数: 37593813
  - 示例数: 48892
  - 下载大小: 393352875
  - 数据集大小: 37593813
config_name: te-ur
- 特征:
  - 名称: translation
  - 数据类型:
    - 语言: te, ur
- 分割:
  - 名称: train
  - 字节数: 16485209
  - 示例数: 21148
  - 下载大小: 393352875
  - 数据集大小: 16485209
config_name: or-pa
- 特征:
  - 名称: translation
  - 数据类型:
    - 语言: or, pa
- 分割:
  - 名称: train
  - 字节数: 30081903
  - 示例数: 43159
  - 下载大小: 393352875
  - 数据集大小: 30081903
config_name: gu-ml
- 特征:
  - 名称: translation
  - 数据类型:
    - 语言: gu, ml
- 分割:
  - 名称: train
  - 字节数: 15749821
  - 示例数: 18252
  - 下载大小: 3933528

5,000+

优质数据集

54 个

任务类型

进入经典数据集