five

ai4bharat/wiki-translate

收藏
Hugging Face2024-06-24 更新2024-06-25 收录
下载链接:
https://hf-mirror.com/datasets/ai4bharat/wiki-translate
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为wiki-translate,主要用于文本生成任务,支持多种语言,包括阿萨姆语、孟加拉语、古吉拉特语、英语、印地语等。数据集的特征包括文档ID、标题、URL以及多种语言的文本内容。数据集的规模在100B到1T之间。

该数据集名为wiki-translate,主要用于文本生成任务,支持多种语言,包括阿萨姆语、孟加拉语、古吉拉特语、英语、印地语等。数据集的特征包括文档ID、标题、URL以及多种语言的文本内容。数据集的规模在100B到1T之间。
提供机构:
ai4bharat
原始信息汇总

数据集概述

许可证

  • CC BY 4.0

任务类别

  • 文本生成

语言

  • 阿萨姆语 (as)
  • 孟加拉语 (bn)
  • 古吉拉特语 (gu)
  • 英语 (en)
  • 印地语 (hi)
  • 卡纳达语 (kn)
  • 克什米尔语 (ks)
  • 马拉雅拉姆语 (ml)
  • 马拉地语 (mr)
  • 尼泊尔语 (ne)
  • 奥里亚语 (or)
  • 旁遮普语 (pa)
  • 梵语 (sa)
  • 信德语 (sd)
  • 泰米尔语 (ta)
  • 泰卢固语 (te)
  • 乌尔都语 (ur)

标签

  • 语言建模
  • 非正式语言模型
  • 大型语言模型

数据集名称

  • wiki-translate

数据集配置

  • 配置名称: train
  • 特征:
    • doc_id: 字符串
    • title: 字符串
    • url: 字符串
    • eng_Latn: 字符串
    • asm_Beng: 字符串
    • ben_Beng: 字符串
    • guj_Gujr: 字符串
    • hin_Deva: 字符串
    • kan_Knda: 字符串
    • mar_Deva: 字符串
    • npi_Deva: 字符串
    • ory_Orya: 字符串
    • pan_Guru: 字符串
    • san_Deva: 字符串
    • tam_Taml: 字符串
    • tel_Telu: 字符串
    • urd_Arab: 字符串

数据文件路径

  • train/*.parquet

数据集大小

  • 100B < n < 1T
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作