five

jerin/pib

收藏
Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/jerin/pib
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个大规模的句子对齐语料库,涵盖了11种印度语言,包括英语、孟加拉语、古吉拉特语、印地语、马拉雅拉姆语、马拉地语、旁遮普语、奥里亚语、泰米尔语、泰卢固语和乌尔都语。数据集的主要任务是机器翻译,支持多种语言对的翻译任务。数据集的结构包括多个语言对的翻译数据,每个语言对的数据都包含在“train”拆分中。

任务类别: - 机器翻译 - 文本生成 - 掩码填充 任务子类型: - 语言建模 - 掩码语言建模 多语言类型: - 机器翻译 涉及语言: - 英语(en) - 孟加拉语(bn) - 古吉拉特语(gu) - 印地语(hi) - 马拉雅拉姆语(ml) - 马拉地语(mr) - 奥里亚语(or) - 旁遮普语(pa) - 泰米尔语(ta) - 泰卢固语(te) - 乌尔都语(ur) 语言创建者: - 其他 标注创建者: - 无标注 源数据集: - 原始数据集 数据规模类别: - 10万<n<100万 - 1万<n<10万 许可协议: - CC BY 4.0(知识共享署名4.0国际许可协议) PapersWithCode ID:无 展示名称:CVIT PIB # CVIT PIB 数据集卡片 ## 目录 - [目录](#目录) - [数据集描述](#数据集描述) - [数据集概览](#数据集概览) - [支持任务与基准测试平台](#支持任务与基准测试平台) - [涉及语言](#涉及语言) - [数据集结构](#数据集结构) - [数据实例](#数据实例) - [数据字段](#数据字段) - [数据划分](#数据划分) - [数据集构建](#数据集构建) - [筛选依据](#筛选依据) - [源数据](#源数据) - [标注信息](#标注信息) - [个人与敏感信息](#个人与敏感信息) - [数据集使用注意事项](#数据集使用注意事项) - [数据集的社会影响](#数据集的社会影响) - [偏差讨论](#偏差讨论) - [其他已知局限性](#其他已知局限性) - [附加信息](#附加信息) - [数据集维护者](#数据集维护者) - [许可信息](#许可信息) - [引用信息](#引用信息) - [贡献声明](#贡献声明) ## 数据集描述 - **主页**:http://preon.iiit.ac.in/~jerin/bhasha/ - **相关论文**:https://arxiv.org/abs/2008.04860 - **联系方式**:[邮件列表](cvit-bhasha@googlegroups.com) ### 数据集概览 本数据集为覆盖11种印度语言的大规模句子对齐平行语料库,即CVIT-PIB语料库,是目前公开可用的规模最大的印度语言多语种平行语料库。 ### 支持任务与基准测试平台 - 机器翻译 ### 涉及语言 覆盖以下语言的平行数据:[英语(en)、孟加拉语(bn)、古吉拉特语(gu)、印地语(hi)、马拉雅拉姆语(ml)、马拉地语(mr)、奥里亚语(or)、旁遮普语(pa)、泰米尔语(ta)、泰卢固语(te)、乌尔都语(ur)] ## 数据集结构 ### 数据实例 以"gu-pa"(古吉拉特语-旁遮普语)语言对为例: { 'translation': { 'gu': 'એવો નિર્ણય લેવાયો હતો કે ખંતપૂર્વકની કામગીરી હાથ ધરવા, કાયદેસર અને ટેકનિકલ મૂલ્યાંકન કરવા, વેન્ચર કેપિટલ ઇન્વેસ્ટમેન્ટ સમિતિની બેઠક યોજવા વગેરે એઆઇએફને કરવામાં આવેલ પ્રતિબદ્ધતાના 0.50 ટકા સુધી અને બાકીની રકમ એફએફએસને પૂર્ણ કરવામાં આવશે.', 'pa': 'ਇਹ ਵੀ ਫੈਸਲਾ ਕੀਤਾ ਗਿਆ ਕਿ ਐੱਫਆਈਆਈ ਅਤੇ ਬਕਾਏ ਲਈ ਕੀਤੀਆਂ ਗਈਆਂ ਵਚਨਬੱਧਤਾਵਾਂ ਦੇ 0.50 % ਦੀ ਸੀਮਾ ਤੱਕ ਐੱਫਈਐੱਸ ਨੂੰ ਮਿਲਿਆ ਜਾਏਗਾ, ਇਸ ਨਾਲ ਉੱਦਮ ਪੂੰਜੀ ਨਿਵੇਸ਼ ਕਮੇਟੀ ਦੀ ਬੈਠਕ ਦਾ ਆਯੋਜਨ ਉਚਿਤ ਸਾਵਧਾਨੀ, ਕਾਨੂੰਨੀ ਅਤੇ ਤਕਨੀਕੀ ਮੁੱਲਾਂਕਣ ਲਈ ਸੰਚਾਲਨ ਖਰਚ ਆਦਿ ਦੀ ਪੂਰਤੀ ਹੋਵੇਗੀ।' } } ### 数据字段 - `translation`:翻译字段,包含对应语言对的平行文本内容。 ### 数据划分 本数据集仅包含单个"train"(训练集)划分。 ## 数据集构建 ### 筛选依据 [需补充更多信息] ### 源数据 #### 初始数据收集与标准化 [需补充更多信息] #### 源语言创作者是谁? [需补充更多信息] ### 标注信息 #### 标注流程 [需补充更多信息] #### 标注者是谁? [需补充更多信息] ### 个人与敏感信息 [需补充更多信息] ## 数据集使用注意事项 ### 数据集的社会影响 [需补充更多信息] ### 偏差讨论 [需补充更多信息] ### 其他已知局限性 [需补充更多信息] ## 附加信息 ### 数据集维护者 [需补充更多信息] ### 许可信息 本数据集采用**知识共享署名4.0国际许可协议(CC BY 4.0)**。 ### 引用信息 @inproceedings{siripragada-etal-2020-multilingual, title = "A Multilingual Parallel Corpora Collection Effort for {I}ndian Languages", author = "Siripragada, Shashank and Philip, Jerin and Namboodiri, Vinay P. and Jawahar, C V", booktitle = "Proceedings of the 12th Language Resources and Evaluation Conference", month = may, year = "2020", address = "Marseille, France", publisher = "European Language Resources Association", url = "https://aclanthology.org/2020.lrec-1.462", pages = "3743--3751", language = "English", ISBN = "979-10-95546-34-4", } @article{2020, title={Revisiting Low Resource Status of Indian Languages in Machine Translation}, url={http://dx.doi.org/10.1145/3430984.3431026}, DOI={10.1145/3430984.3431026}, journal={8th ACM IKDD CODS and 26th COMAD}, publisher={ACM}, author={Philip, Jerin and Siripragada, Shashank and Namboodiri, Vinay P. and Jawahar, C. V.}, year={2020}, month={Dec} } ### 贡献声明 感谢 [@vasudevgupta7](https://github.com/vasudevgupta7) 为本数据集的收录提供支持,同时感谢 [@albertvillanova](https://github.com/albertvillanova) 更新了该数据集的版本。 ### 数据集配置详情 本数据集包含多组语言对配置,以下为配置名称列表: - 孟加拉语-英语(bn-en) - 孟加拉语-古吉拉特语(bn-gu) - 孟加拉语-印地语(bn-hi) - 孟加拉语-马拉雅拉姆语(bn-ml) - 孟加拉语-马拉地语(bn-mr) - 孟加拉语-奥里亚语(bn-or) - 孟加拉语-旁遮普语(bn-pa) - 孟加拉语-泰米尔语(bn-ta) - 孟加拉语-泰卢固语(bn-te) - 孟加拉语-乌尔都语(bn-ur) - 英语-古吉拉特语(en-gu) - 英语-印地语(en-hi) - 英语-马拉雅拉姆语(en-ml) - 英语-马拉地语(en-mr) - 英语-奥里亚语(en-or) - 英语-旁遮普语(en-pa) - 英语-泰米尔语(en-ta) - 英语-泰卢固语(en-te) - 英语-乌尔都语(en-ur) - 古吉拉特语-印地语(gu-hi) - 古吉拉特语-马拉雅拉姆语(gu-ml) - 古吉拉特语-马拉地语(gu-mr) - 古吉拉特语-奥里亚语(gu-or) - 古吉拉特语-旁遮普语(gu-pa) - 古吉拉特语-泰米尔语(gu-ta) - 古吉拉特语-泰卢固语(gu-te) - 古吉拉特语-乌尔都语(gu-ur) - 印地语-马拉雅拉姆语(hi-ml) - 印地语-马拉地语(hi-mr) - 印地语-奥里亚语(hi-or) - 印地语-旁遮普语(hi-pa) - 印地语-泰米尔语(hi-ta) - 印地语-泰卢固语(hi-te) - 印地语-乌尔都语(hi-ur) - 马拉雅拉姆语-马拉地语(ml-mr) - 马拉雅拉姆语-奥里亚语(ml-or) - 马拉雅拉姆语-旁遮普语(ml-pa) - 马拉雅拉姆语-泰米尔语(ml-ta) - 马拉雅拉姆语-泰卢固语(ml-te) - 马拉雅拉姆语-乌尔都语(ml-ur) - 马拉地语-奥里亚语(mr-or) - 马拉地语-旁遮普语(mr-pa) - 马拉地语-泰米尔语(mr-ta) - 马拉地语-泰卢固语(mr-te) - 马拉地语-乌尔都语(mr-ur) - 奥里亚语-旁遮普语(or-pa) - 奥里亚语-泰米尔语(or-ta) - 奥里亚语-泰卢固语(or-te) - 奥里亚语-乌尔都语(or-ur) - 旁遮普语-泰米尔语(pa-ta) - 旁遮普语-泰卢固语(pa-te) - 旁遮普语-乌尔都语(pa-ur) - 泰米尔语-泰卢固语(ta-te) - 泰米尔语-乌尔都语(ta-ur) - 泰卢固语-乌尔都语(te-ur)
提供机构:
jerin
原始信息汇总

数据集概述

任务类别

  • 翻译
  • 文本生成
  • 填充掩码

任务标识

  • 语言建模
  • 掩码语言建模

多语言性

  • 翻译

语言

  • bn
  • en
  • gu
  • hi
  • ml
  • mr
  • or
  • pa
  • ta
  • te
  • ur

语言创建者

  • 其他

注释创建者

  • 无注释

源数据集

  • 原始

大小类别

  • 100K<n<1M
  • 10K<n<100K

许可证

  • cc-by-4.0

数据集配置信息

  • config_name: or-ur

    • 特征:
      • 名称: translation
      • 数据类型:
        • 语言: or, ur
    • 分割:
      • 名称: train
      • 字节数: 27790211
      • 示例数: 43766
      • 下载大小: 393352875
      • 数据集大小: 27790211
  • config_name: ml-or

    • 特征:
      • 名称: translation
      • 数据类型:
        • 语言: ml, or
    • 分割:
      • 名称: train
      • 字节数: 16011549
      • 示例数: 19413
      • 下载大小: 393352875
      • 数据集大小: 16011549
  • config_name: bn-ta

    • 特征:
      • 名称: translation
      • 数据类型:
        • 语言: bn, ta
    • 分割:
      • 名称: train
      • 字节数: 28706668
      • 示例数: 33005
      • 下载大小: 393352875
      • 数据集大小: 28706668
  • config_name: gu-mr

    • 特征:
      • 名称: translation
      • 数据类型:
        • 语言: gu, mr
    • 分割:
      • 名称: train
      • 字节数: 24253770
      • 示例数: 30766
      • 下载大小: 393352875
      • 数据集大小: 24253770
  • config_name: hi-or

    • 特征:
      • 名称: translation
      • 数据类型:
        • 语言: hi, or
    • 分割:
      • 名称: train
      • 字节数: 45086618
      • 示例数: 61070
      • 下载大小: 393352875
      • 数据集大小: 45086618
  • config_name: en-or

    • 特征:
      • 名称: translation
      • 数据类型:
        • 语言: en, or
    • 分割:
      • 名称: train
      • 字节数: 51258494
      • 示例数: 98230
      • 下载大小: 393352875
      • 数据集大小: 51258494
  • config_name: mr-ur

    • 特征:
      • 名称: translation
      • 数据类型:
        • 语言: mr, ur
    • 分割:
      • 名称: train
      • 字节数: 34053295
      • 示例数: 49691
      • 下载大小: 393352875
      • 数据集大小: 34053295
  • config_name: en-ta

    • 特征:
      • 名称: translation
      • 数据类型:
        • 语言: en, ta
    • 分割:
      • 名称: train
      • 字节数: 74931542
      • 示例数: 118759
      • 下载大小: 393352875
      • 数据集大小: 74931542
  • config_name: hi-ta

    • 特征:
      • 名称: translation
      • 数据类型:
        • 语言: hi, ta
    • 分割:
      • 名称: train
      • 字节数: 57628429
      • 示例数: 64945
      • 下载大小: 393352875
      • 数据集大小: 57628429
  • config_name: bn-en

    • 特征:
      • 名称: translation
      • 数据类型:
        • 语言: bn, en
    • 分割:
      • 名称: train
      • 字节数: 53291968
      • 示例数: 93560
      • 下载大小: 393352875
      • 数据集大小: 53291968
  • config_name: bn-or

    • 特征:
      • 名称: translation
      • 数据类型:
        • 语言: bn, or
    • 分割:
      • 名称: train
      • 字节数: 19819136
      • 示例数: 26456
      • 下载大小: 393352875
      • 数据集大小: 19819136
  • config_name: ml-ta

    • 特征:
      • 名称: translation
      • 数据类型:
        • 语言: ml, ta
    • 分割:
      • 名称: train
      • 字节数: 21685938
      • 示例数: 23609
      • 下载大小: 393352875
      • 数据集大小: 21685938
  • config_name: gu-ur

    • 特征:
      • 名称: translation
      • 数据类型:
        • 语言: gu, ur
    • 分割:
      • 名称: train
      • 字节数: 20312414
      • 示例数: 29938
      • 下载大小: 393352875
      • 数据集大小: 20312414
  • config_name: bn-ml

    • 特征:
      • 名称: translation
      • 数据类型:
        • 语言: bn, ml
    • 分割:
      • 名称: train
      • 字节数: 15545271
      • 示例数: 18149
      • 下载大小: 393352875
      • 数据集大小: 15545271
  • config_name: ml-pa

    • 特征:
      • 名称: translation
      • 数据类型:
        • 语言: ml, pa
    • 分割:
      • 名称: train
      • 字节数: 18114904
      • 示例数: 21978
      • 下载大小: 393352875
      • 数据集大小: 18114904
  • config_name: en-pa

    • 特征:
      • 名称: translation
      • 数据类型:
        • 语言: en, pa
    • 分割:
      • 名称: train
      • 字节数: 56316514
      • 示例数: 103296
      • 下载大小: 393352875
      • 数据集大小: 56316514
  • config_name: bn-hi

    • 特征:
      • 名称: translation
      • 数据类型:
        • 语言: bn, hi
    • 分割:
      • 名称: train
      • 字节数: 40970170
      • 示例数: 49598
      • 下载大小: 393352875
      • 数据集大小: 40970170
  • config_name: hi-pa

    • 特征:
      • 名称: translation
      • 数据类型:
        • 语言: hi, pa
    • 分割:
      • 名称: train
      • 字节数: 59293062
      • 示例数: 75200
      • 下载大小: 393352875
      • 数据集大小: 59293062
  • config_name: gu-te

    • 特征:
      • 名称: translation
      • 数据类型:
        • 语言: gu, te
    • 分割:
      • 名称: train
      • 字节数: 14517828
      • 示例数: 16335
      • 下载大小: 393352875
      • 数据集大小: 14517828
  • config_name: pa-ta

    • 特征:
      • 名称: translation
      • 数据类型:
        • 语言: pa, ta
    • 分割:
      • 名称: train
      • 字节数: 39144065
      • 示例数: 46349
      • 下载大小: 393352875
      • 数据集大小: 39144065
  • config_name: hi-ml

    • 特征:
      • 名称: translation
      • 数据类型:
        • 语言: hi, ml
    • 分割:
      • 名称: train
      • 字节数: 24015298
      • 示例数: 27167
      • 下载大小: 393352875
      • 数据集大小: 24015298
  • config_name: or-te

    • 特征:
      • 名称: translation
      • 数据类型:
        • 语言: or, te
    • 分割:
      • 名称: train
      • 字节数: 9011734
      • 示例数: 10475
      • 下载大小: 393352875
      • 数据集大小: 9011734
  • config_name: en-ml

    • 特征:
      • 名称: translation
      • 数据类型:
        • 语言: en, ml
    • 分割:
      • 名称: train
      • 字节数: 27754969
      • 示例数: 44986
      • 下载大小: 393352875
      • 数据集大小: 27754969
  • config_name: en-hi

    • 特征:
      • 名称: translation
      • 数据类型:
        • 语言: en, hi
    • 分割:
      • 名称: train
      • 字节数: 160009440
      • 示例数: 269594
      • 下载大小: 393352875
      • 数据集大小: 160009440
  • config_name: bn-pa

    • 特征:
      • 名称: translation
      • 数据类型:
        • 语言: bn, pa
    • 分割:
      • 名称: train
      • 字节数: 27522373
      • 示例数: 35109
      • 下载大小: 393352875
      • 数据集大小: 27522373
  • config_name: mr-te

    • 特征:
      • 名称: translation
      • 数据类型:
        • 语言: mr, te
    • 分割:
      • 名称: train
      • 字节数: 16838115
      • 示例数: 18179
      • 下载大小: 393352875
      • 数据集大小: 16838115
  • config_name: mr-pa

    • 特征:
      • 名称: translation
      • 数据类型:
        • 语言: mr, pa
    • 分割:
      • 名称: train
      • 字节数: 38720410
      • 示例数: 50418
      • 下载大小: 393352875
      • 数据集大小: 38720410
  • config_name: bn-te

    • 特征:
      • 名称: translation
      • 数据类型:
        • 语言: bn, te
    • 分割:
      • 名称: train
      • 字节数: 15529843
      • 示例数: 17605
      • 下载大小: 393352875
      • 数据集大小: 15529843
  • config_name: gu-hi

    • 特征:
      • 名称: translation
      • 数据类型:
        • 语言: gu, hi
    • 分割:
      • 名称: train
      • 字节数: 33606230
      • 示例数: 41587
      • 下载大小: 393352875
      • 数据集大小: 33606230
  • config_name: ta-ur

    • 特征:
      • 名称: translation
      • 数据类型:
        • 语言: ta, ur
    • 分割:
      • 名称: train
      • 字节数: 37593813
      • 示例数: 48892
      • 下载大小: 393352875
      • 数据集大小: 37593813
  • config_name: te-ur

    • 特征:
      • 名称: translation
      • 数据类型:
        • 语言: te, ur
    • 分割:
      • 名称: train
      • 字节数: 16485209
      • 示例数: 21148
      • 下载大小: 393352875
      • 数据集大小: 16485209
  • config_name: or-pa

    • 特征:
      • 名称: translation
      • 数据类型:
        • 语言: or, pa
    • 分割:
      • 名称: train
      • 字节数: 30081903
      • 示例数: 43159
      • 下载大小: 393352875
      • 数据集大小: 30081903
  • config_name: gu-ml

    • 特征:
      • 名称: translation
      • 数据类型:
        • 语言: gu, ml
    • 分割:
      • 名称: train
      • 字节数: 15749821
      • 示例数: 18252
      • 下载大小: 3933528
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作