five

cis-lmu/GlotCC-V1

收藏
Hugging Face2024-11-01 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/cis-lmu/GlotCC-V1
下载链接
链接失效反馈
官方服务:
资源简介:
数据集包含了多种语言和脚本的配置,每个配置都有对应的训练数据文件路径。数据集被分为不同的语言和脚本组合,例如英语-拉丁、俄语-西里尔等,并且每个配置都有指定到训练数据文件的路径。

The dataset includes various language and script configurations, each with a specific path to the training data files. The dataset is structured with different language-script combinations such as English-Latin, Russian-Cyrillic, etc., and each configuration has a designated path to the training data files.
提供机构:
cis-lmu
原始信息汇总

数据集概述

该数据集包含多种语言的文本数据,以Parquet格式存储。数据集分为多个配置,每个配置对应一种语言或语言脚本。以下是数据集的详细配置信息:

配置列表

  • 默认配置 (default)

    • 训练集路径: v1.0/*/*.parquet
  • 英语 (eng-Latn)

    • 训练集路径: v1.0/eng-Latn/*.parquet
  • 俄语 (rus-Cyrl)

    • 训练集路径: v1.0/rus-Cyrl/*.parquet
  • 法语 (fra-Latn)

    • 训练集路径: v1.0/fra-Latn/*.parquet
  • 西班牙语 (spa-Latn)

    • 训练集路径: v1.0/spa-Latn/*.parquet
  • 德语 (deu-Latn)

    • 训练集路径: v1.0/deu-Latn/*.parquet
  • 波兰语 (pol-Latn)

    • 训练集路径: v1.0/pol-Latn/*.parquet
  • 越南语 (vie-Latn)

    • 训练集路径: v1.0/vie-Latn/*.parquet
  • 意大利语 (ita-Latn)

    • 训练集路径: v1.0/ita-Latn/*.parquet
  • 荷兰语 (nld-Latn)

    • 训练集路径: v1.0/nld-Latn/*.parquet
  • 葡萄牙语 (por-Latn)

    • 训练集路径: v1.0/por-Latn/*.parquet
  • 捷克语 (ces-Latn)

    • 训练集路径: v1.0/ces-Latn/*.parquet
  • 波斯语 (fas-Arab)

    • 训练集路径: v1.0/fas-Arab/*.parquet
  • 土耳其语 (tur-Latn)

    • 训练集路径: v1.0/tur-Latn/*.parquet
  • 泰语 (tha-Thai)

    • 训练集路径: v1.0/tha-Thai/*.parquet
  • 印度尼西亚语 (ind-Latn)

    • 训练集路径: v1.0/ind-Latn/*.parquet
  • 中文 (cmn-Hani)

    • 训练集路径: v1.0/cmn-Hani/*.parquet
  • 匈牙利语 (hun-Latn)

    • 训练集路径: v1.0/hun-Latn/*.parquet
  • 希腊语 (ell-Grek)

    • 训练集路径: v1.0/ell-Grek/*.parquet
  • 瑞典语 (swe-Latn)

    • 训练集路径: v1.0/swe-Latn/*.parquet
  • 罗马尼亚语 (ron-Latn)

    • 训练集路径: v1.0/ron-Latn/*.parquet
  • 韩语 (kor-Hang)

    • 训练集路径: v1.0/kor-Hang/*.parquet
  • 乌克兰语 (ukr-Cyrl)

    • 训练集路径: v1.0/ukr-Cyrl/*.parquet
  • 阿拉伯语 (arb-Arab)

    • 训练集路径: v1.0/arb-Arab/*.parquet
  • 芬兰语 (fin-Latn)

    • 训练集路径: v1.0/fin-Latn/*.parquet
  • 斯洛伐克语 (slk-Latn)

    • 训练集路径: v1.0/slk-Latn/*.parquet
  • 保加利亚语 (bul-Cyrl)

    • 训练集路径: v1.0/bul-Cyrl/*.parquet
  • 丹麦语 (dan-Latn)

    • 训练集路径: v1.0/dan-Latn/*.parquet
  • 希伯来语 (heb-Hebr)

    • 训练集路径: v1.0/heb-Hebr/*.parquet
  • 挪威语 (nob-Latn)

    • 训练集路径: v1.0/nob-Latn/*.parquet
  • 加泰罗尼亚语 (cat-Latn)

    • 训练集路径: v1.0/cat-Latn/*.parquet
  • 立陶宛语 (lit-Latn)

    • 训练集路径: v1.0/lit-Latn/*.parquet
  • 孟加拉语 (ben-Beng)

    • 训练集路径: v1.0/ben-Beng/*.parquet
  • 斯洛文尼亚语 (slv-Latn)

    • 训练集路径: v1.0/slv-Latn/*.parquet
  • 阿塞拜疆语 (azj-Latn)

    • 训练集路径: v1.0/azj-Latn/*.parquet
  • 爱沙尼亚语 (ekk-Latn)

    • 训练集路径: v1.0/ekk-Latn/*.parquet
  • 拉脱维亚语 (lvs-Latn)

    • 训练集路径: v1.0/lvs-Latn/*.parquet
  • 克罗地亚语 (hrv-Latn)

    • 训练集路径: v1.0/hrv-Latn/*.parquet
  • 日语 (jpn-Jpan)

    • 训练集路径: v1.0/jpn-Jpan/*.parquet
  • 泰米尔语 (tam-Taml)

    • 训练集路径: v1.0/tam-Taml/*.parquet
  • 塞尔维亚语 (srp-Cyrl)

    • 训练集路径: v1.0/srp-Cyrl/*.parquet
  • 尼泊尔语 (npi-Deva)

    • 训练集路径: v1.0/npi-Deva/*.parquet
  • 格鲁吉亚语 (kat-Geor)

    • 训练集路径: v1.0/kat-Geor/*.parquet
  • 印地语 (hin-Deva)

    • 训练集路径: v1.0/hin-Deva/*.parquet
  • 亚美尼亚语 (hye-Armn)

    • 训练集路径: v1.0/hye-Armn/*.parquet
  • 马来语 (zsm-Latn)

    • 训练集路径: v1.0/zsm-Latn/*.parquet
  • 阿尔巴尼亚语 (als-Latn)

    • 训练集路径: v1.0/als-Latn/*.parquet
  • 马其顿语 (mkd-Cyrl)

    • 训练集路径: v1.0/mkd-Cyrl/*.parquet
  • 马拉雅拉姆语 (mal-Mlym)

    • 训练集路径: v1.0/mal-Mlym/*.parquet
  • 库尔德语 (kiu-Latn)

    • 训练集路径: v1.0/kiu-Latn/*.parquet
  • 乌尔都语 (urd-Arab)

    • 训练集路径: v1.0/urd-Arab/*.parquet
  • 缅甸语 (mya-Mymr)

    • 训练集路径: v1.0/mya-Mymr/*.parquet
  • 加利西亚语 (glg-Latn)

    • 训练集路径: v1.0/glg-Latn/*.parquet
  • 冰岛语 (isl-Latn)

    • 训练集路径: v1.0/isl-Latn/*.parquet
  • 马拉地语 (mar-Deva)

    • 训练集路径: v1.0/mar-Deva/*.parquet
  • 巴斯克语 (eus-Latn)

    • 训练集路径: v1.0/eus-Latn/*.parquet
  • 哈萨克语 (kaz-Cyrl)

    • 训练集路径: v1.0/kaz-Cyrl/*.parquet
  • 泰卢固语 (tel-Telu)

    • 训练集路径: v1.0/tel-Telu/*.parquet
  • 拉丁语 (lat-Latn)

    • 训练集路径: v1.0/lat-Latn/*.parquet
  • 蒙古语 (khk-Cyrl)

    • 训练集路径: v1.0/khk-Cyrl/*.parquet
  • 高棉语 (khm-Khmr)

    • 训练集路径: v1.0/khm-Khmr/*.parquet
  • 白俄罗斯语 (bel-Cyrl)

    • 训练集路径: v1.0/bel-Cyrl/*.parquet
  • 卡纳达语 (kan-Knda)

    • 训练集路径: v1.0/kan-Knda/*.parquet
  • 波斯尼亚语 (bos-Latn)

    • 训练集路径: v1.0/bos-Latn/*.parquet
  • 古吉拉特语 (guj-Gujr)

    • 训练集路径: v1.0/guj-Gujr/*.parquet
  • 僧伽罗语 (sin-Sinh)

    • 训练集路径: v1.0/sin-Sinh/*.parquet
  • 乌兹别克语 (uzn-Latn)

    • 训练集路径: v1.0/uzn-Latn/*.parquet
  • 乌兹别克语 (uzn-Cyrl)

    • 训练集路径: v1.0/uzn-Cyrl/*.parquet
  • 菲律宾语 (fil-Latn)

    • 训练集路径: v1.0/fil-Latn/*.parquet
  • 旁遮普语 (pan-Guru)

    • 训练集路径: v1.0/pan-Guru/*.parquet
  • 挪威尼诺斯克语 (nno-Latn)

    • 训练集路径: v1.0/nno-Latn/*.parquet
  • 威尔士语 (cym-Latn)

    • 训练集路径: v1.0/cym-Latn/*.parquet
  • 南非荷兰语 (afr-Latn)

    • 训练集路径: v1.0/afr-Latn/*.parquet
  • 吉尔吉斯语 (kir-Cyrl)

    • 训练集路径: v1.0/kir-Cyrl/*.parquet
  • 塔吉克语 (tgk-Cyrl)

    • 训练集路径: v1.0/tgk-Cyrl/*.parquet
  • 斯瓦希里语 (swh-Latn)

    • 训练集路径: v1.0/swh-Latn/*.parquet
  • 世界语 (epo-Latn)

    • 训练集路径: v1.0/epo-Latn/*.parquet
  • 普什图语 (pbt-Arab)

    • 训练集路径: v1.0/pbt-Arab/*.parquet
  • 爱尔兰语 (gle-Latn)

    • 训练集路径: v1.0/gle-Latn/*.parquet
  • 鞑靼语 (tat-Cyrl)

    • 训练集路径: v1.0/tat-Cyrl/*.parquet
  • 昂加语 (anp-Deva)

    • 训练集路径: v1.0/anp-Deva/*.parquet
  • 奥里亚语 (ory-Orya)

    • 训练集路径: v1.0/ory-Orya/*.parquet
  • 维吾尔语 (uig-Arab)

    • 训练集路径: v1.0/uig-Arab/*.parquet
  • 摩洛哥阿拉伯语 (ary-Arab)

    • 训练集路径: v1.0/ary-Arab/*.parquet
  • 老挝语 (lao-Laoo)

    • 训练集路径: v1.0/lao-Laoo/*.parquet
  • 马耳他语 (mlt-Latn)

    • 训练集路径: v1.0/mlt-Latn/*.parquet
  • 阿姆哈拉语 (amh-Ethi)

    • 训练集路径: v1.0/amh-Ethi/*.parquet
  • 阿萨姆语 (asm-Beng)

    • 训练集路径: v1.0/asm-Beng/*.parquet
  • 巴什基尔语 (bak-Cyrl)

    • 训练集路径: v1.0/bak-Cyrl/*.parquet
  • 迪维希语 (div-Thaa)

    • 训练集路径: v1.0/div-Thaa/*.parquet
  • 法罗语 (fao-Latn)

    • 训练集路径: v1.0/fao-Latn/*.parquet
  • 藏语 (bod-Tibt)

    • 训练集路径: v1.0/bod-Tibt/*.parquet
  • 索马里语 (som-Latn)

    • 训练集路径: v1.0/som-Latn/*.parquet
  • 意第绪语 (ydd-Hebr)

    • 训练集路径: v1.0/ydd-Hebr/*.parquet
  • 中库尔德语 (ckb-Arab)

    • 训练集路径: v1.0/ckb-Arab/*.parquet
  • 弗里斯兰语 (fry-Latn)

    • 训练集路径: v1.0/fry-Latn/*.parquet
  • 库尔德语 (kmr-Latn)

    • 训练集路径: v1.0/kmr-Latn/*.parquet
  • 信德语 (snd-Arab)

    • 训练集路径: v1.0/snd-Arab/*.parquet
  • 阿斯图里亚斯语 (ast-Latn)

    • 训练集路径: v1.0/ast-Latn/*.parquet
  • 苏格兰盖尔语 (gla-Latn)

    • 训练集路径: v1.0/gla-Latn/*.parquet
  • 奥克语 (oci-Latn)

    • 训练集路径: v1.0/oci-Latn/*.parquet
  • 豪萨语 (hau-Latn)

    • 训练集路径: v1.0/hau-Latn/*.parquet
  • 毛里求斯克里奥尔语 (plt-Latn)

    • 训练集路径: v1.0/plt-Latn/*.parquet
  • 土库曼语 (tuk-Latn)

    • 训练集路径: v1.0/tuk-Latn/*.parquet
  • 卢森堡语 (ltz-Latn)

    • 训练集路径: v1.0/ltz-Latn/*.parquet
  • 埃及阿拉伯语 (arz-Arab)

    • 训练集路径: v1.0/arz-Arab/*.parquet
  • 西亚美尼亚语 (hyw-Armn)

    • 训练集路径: v1.0/hyw-Armn/*.parquet
  • 梵语 (san-Deva)

    • 训练集路径: v1.0/san-Deva/*.parquet
  • 古希腊语 (grc-Grek)

搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作