GlotCC

Name: GlotCC
Creator: 慕尼黑大学 & 慕尼黑机器学习中心, 巴黎索邦大学 & 法国国家科学研究中心, ISIR
Published: 2024-10-31 19:14:12
License: 暂无描述

arXiv2024-10-31 更新2024-11-05 收录

下载链接：

https://huggingface.co/datasets/cis-lmu/GlotCC-v1

下载链接

链接失效反馈

官方服务：

资源简介：

GlotCC是由慕尼黑大学和慕尼黑机器学习中心创建的一个开放、广泛覆盖的CommonCrawl语料库，专门针对少数语言。该数据集包含超过1000种语言的2TB文档级通用领域文本，通过一个开源可复现的管道生成，并经过严格清理以确保数据质量。GlotCC的创建过程包括使用GlotLID v3.0进行语言识别和多种过滤技术去除网页噪音。该数据集主要应用于预训练生成语言模型和其他需要超越句子级别信息的语言技术，旨在解决少数语言数据稀缺的问题。

GlotCC is an open, comprehensively covered CommonCrawl corpus dedicated to low-resource languages, created by the University of Munich and the Munich Center for Machine Learning. This dataset contains 2 terabytes of document-level general-domain text across over 1000 languages, generated via an open-source and reproducible pipeline, and rigorously cleaned to ensure data quality. The construction process of GlotCC includes language identification using GlotLID v3.0 and multiple filtering techniques to remove web noise. This dataset is primarily applied to pre-training generative language models and other language technologies that require information beyond the sentence level, aiming to address the scarcity of data for low-resource languages.

提供机构：

慕尼黑大学 & 慕尼黑机器学习中心, 巴黎索邦大学 & 法国国家科学研究中心, ISIR

创建时间：

2024-10-31

原始信息汇总

GlotCC-v1 数据集概述

基本信息

数据集名称: GlotCC-v1
许可证: CC0-1.0

配置信息

数据集包含多个配置，每个配置对应不同的语言和脚本。以下是各配置的详细信息：

默认配置

配置名称: default
数据文件路径: v1.0/*/*.parquet
数据分割: train

语言配置

以下是各语言配置的详细信息：

英语 (Latin 脚本)
- 配置名称: eng-Latn
- 数据文件路径: v1.0/eng-Latn/*.parquet
- 数据分割: train
俄语 (Cyrillic 脚本)
- 配置名称: rus-Cyrl
- 数据文件路径: v1.0/rus-Cyrl/*.parquet
- 数据分割: train
法语 (Latin 脚本)
- 配置名称: fra-Latn
- 数据文件路径: v1.0/fra-Latn/*.parquet
- 数据分割: train
西班牙语 (Latin 脚本)
- 配置名称: spa-Latn
- 数据文件路径: v1.0/spa-Latn/*.parquet
- 数据分割: train
德语 (Latin 脚本)
- 配置名称: deu-Latn
- 数据文件路径: v1.0/deu-Latn/*.parquet
- 数据分割: train
波兰语 (Latin 脚本)
- 配置名称: pol-Latn
- 数据文件路径: v1.0/pol-Latn/*.parquet
- 数据分割: train
越南语 (Latin 脚本)
- 配置名称: vie-Latn
- 数据文件路径: v1.0/vie-Latn/*.parquet
- 数据分割: train
意大利语 (Latin 脚本)
- 配置名称: ita-Latn
- 数据文件路径: v1.0/ita-Latn/*.parquet
- 数据分割: train
荷兰语 (Latin 脚本)
- 配置名称: nld-Latn
- 数据文件路径: v1.0/nld-Latn/*.parquet
- 数据分割: train
葡萄牙语 (Latin 脚本)
- 配置名称: por-Latn
- 数据文件路径: v1.0/por-Latn/*.parquet
- 数据分割: train
捷克语 (Latin 脚本)
- 配置名称: ces-Latn
- 数据文件路径: v1.0/ces-Latn/*.parquet
- 数据分割: train
波斯语 (Arabic 脚本)
- 配置名称: fas-Arab
- 数据文件路径: v1.0/fas-Arab/*.parquet
- 数据分割: train
土耳其语 (Latin 脚本)
- 配置名称: tur-Latn
- 数据文件路径: v1.0/tur-Latn/*.parquet
- 数据分割: train
泰语 (Thai 脚本)
- 配置名称: tha-Thai
- 数据文件路径: v1.0/tha-Thai/*.parquet
- 数据分割: train
印尼语 (Latin 脚本)
- 配置名称: ind-Latn
- 数据文件路径: v1.0/ind-Latn/*.parquet
- 数据分割: train
中文 (Han 脚本)
- 配置名称: cmn-Hani
- 数据文件路径: v1.0/cmn-Hani/*.parquet
- 数据分割: train
匈牙利语 (Latin 脚本)
- 配置名称: hun-Latn
- 数据文件路径: v1.0/hun-Latn/*.parquet
- 数据分割: train
希腊语 (Greek 脚本)
- 配置名称: ell-Grek
- 数据文件路径: v1.0/ell-Grek/*.parquet
- 数据分割: train
瑞典语 (Latin 脚本)
- 配置名称: swe-Latn
- 数据文件路径: v1.0/swe-Latn/*.parquet
- 数据分割: train
罗马尼亚语 (Latin 脚本)
- 配置名称: ron-Latn
- 数据文件路径: v1.0/ron-Latn/*.parquet
- 数据分割: train
韩语 (Hangul 脚本)
- 配置名称: kor-Hang
- 数据文件路径: v1.0/kor-Hang/*.parquet
- 数据分割: train
乌克兰语 (Cyrillic 脚本)
- 配置名称: ukr-Cyrl
- 数据文件路径: v1.0/ukr-Cyrl/*.parquet
- 数据分割: train
阿拉伯语 (Arabic 脚本)
- 配置名称: arb-Arab
- 数据文件路径: v1.0/arb-Arab/*.parquet
- 数据分割: train
芬兰语 (Latin 脚本)
- 配置名称: fin-Latn
- 数据文件路径: v1.0/fin-Latn/*.parquet
- 数据分割: train
斯洛伐克语 (Latin 脚本)
- 配置名称: slk-Latn
- 数据文件路径: v1.0/slk-Latn/*.parquet
- 数据分割: train
保加利亚语 (Cyrillic 脚本)
- 配置名称: bul-Cyrl
- 数据文件路径: v1.0/bul-Cyrl/*.parquet
- 数据分割: train
丹麦语 (Latin 脚本)
- 配置名称: dan-Latn
- 数据文件路径: v1.0/dan-Latn/*.parquet
- 数据分割: train
希伯来语 (Hebrew 脚本)
- 配置名称: heb-Hebr
- 数据文件路径: v1.0/heb-Hebr/*.parquet
- 数据分割: train
挪威语 (Bokmål, Latin 脚本)
- 配置名称: nob-Latn
- 数据文件路径: v1.0/nob-Latn/*.parquet
- 数据分割: train
加泰罗尼亚语 (Latin 脚本)
- 配置名称: cat-Latn
- 数据文件路径: v1.0/cat-Latn/*.parquet
- 数据分割: train
立陶宛语 (Latin 脚本)
- 配置名称: lit-Latn
- 数据文件路径: v1.0/lit-Latn/*.parquet
- 数据分割: train
孟加拉语 (Bengali 脚本)
- 配置名称: ben-Beng
- 数据文件路径: v1.0/ben-Beng/*.parquet
- 数据分割: train
斯洛文尼亚语 (Latin 脚本)
- 配置名称: slv-Latn
- 数据文件路径: v1.0/slv-Latn/*.parquet
- 数据分割: train
阿塞拜疆语 (Latin 脚本)
- 配置名称: azj-Latn
- 数据文件路径: v1.0/azj-Latn/*.parquet
- 数据分割: train
爱沙尼亚语 (Latin 脚本)
- 配置名称: ekk-Latn
- 数据文件路径: v1.0/ekk-Latn/*.parquet
- 数据分割: train
拉脱维亚语 (Latin 脚本)
- 配置名称: lvs-Latn
- 数据文件路径: v1.0/lvs-Latn/*.parquet
- 数据分割: train
克罗地亚语 (Latin 脚本)
- 配置名称: hrv-Latn
- 数据文件路径: v1.0/hrv-Latn/*.parquet
- 数据分割: train
日语 (Japanese 脚本)
- 配置名称: jpn-Jpan
- 数据文件路径: v1.0/jpn-Jpan/*.parquet
- 数据分割: train
泰米尔语 (Tamil 脚本)
- 配置名称: tam-Taml
- 数据文件路径: v1.0/tam-Taml/*.parquet
- 数据分割: train
塞尔维亚语 (Cyrillic 脚本)
- 配置名称: srp-Cyrl
- 数据文件路径: v1.0/srp-Cyrl/*.parquet
- 数据分割: train
尼泊尔语 (Devanagari 脚本)
- 配置名称: npi-Deva
- 数据文件路径: v1.0/npi-Deva/*.parquet
- 数据分割: train
格鲁吉亚语 (Georgian 脚本)
- 配置名称: kat-Geor
- 数据文件路径: v1.0/kat-Geor/*.parquet
- 数据分割: train
印地语 (Devanagari 脚本)
- 配置名称: hin-Deva
- 数据文件路径: v1.0/hin-Deva/*.parquet
- 数据分割: train
亚美尼亚语 (Armenian 脚本)
- 配置名称: hye-Armn
- 数据文件路径: v1.0/hye-Armn/*.parquet
- 数据分割: train
马来语 (Latin 脚本)
- 配置名称: zsm-Latn
- 数据文件路径: v1.0/zsm-Latn/*.parquet
- 数据分割: train
阿尔巴尼亚语 (Latin 脚本)
- 配置名称: als-Latn
- 数据文件路径: v1.0/als-Latn/*.parquet
- 数据分割: train
马其顿语 (Cyrillic 脚本)
- 配置名称: mkd-Cyrl
- 数据文件路径: v1.0/mkd-Cyrl/*.parquet
- 数据分割: train
马拉雅拉姆语 (Malayalam 脚本)
- 配置名称: mal-Mlym
- 数据文件路径: v1.0/mal-Mlym/*.parquet
- 数据分割: train
库尔德语 (Latin 脚本)
- 配置名称: kiu-Latn
- 数据文件路径: v1.0/kiu-Latn/*.parquet
- 数据分割: train
乌尔都语 (Arabic 脚本)
- 配置名称: urd-Arab
- 数据文件路径: v1.0/urd-Arab/*.parquet
- 数据分割: train
缅甸语 (Myanmar 脚本)
- 配置名称: mya-Mymr
- 数据文件路径: v1.0/mya-Mymr/*.parquet
- 数据分割: train
加利西亚语 (Latin 脚本)
- 配置名称: glg-Latn
- 数据文件路径: v1.0/glg-Latn/*.parquet
- 数据分割: train
冰岛语 (Latin 脚本)
- 配置名称: isl-Latn
- 数据文件路径: v1.0/isl-Latn/*.parquet
- 数据分割: train
马拉地语 (Devanagari 脚本)
- 配置名称: mar-Deva
- 数据文件路径: v1.0/mar-Deva/*.parquet
- 数据分割: train
巴斯克语 (Latin 脚本)
- 配置名称: eus-Latn
- 数据文件路径: v1.0/eus-Latn/*.parquet
- 数据分割: train
哈萨克语 (Cyrillic 脚本)
- 配置名称: kaz-Cyrl
- 数据文件路径: v1.0/kaz-Cyrl/*.parquet
- 数据分割: train
泰卢固语 (Telugu 脚本)
- 配置名称: tel-Telu
- 数据文件路径: v1.0/tel-Telu/*.parquet
- 数据分割: train
拉丁语 (Latin 脚本)
- 配置名称: lat-Latn
- 数据文件路径: v1.0/lat-Latn/*.parquet
- 数据分割: train
哈萨克语 (Cyrillic 脚本)
- 配置名称: khk-Cyrl
- 数据文件路径: v1.0/khk-Cyrl/*.parquet
- 数据分割: train
高棉语 (Khmer 脚本)
- 配置名称: khm-Khmr
- 数据文件路径: v1.0/khm-Khmr/*.parquet
- 数据分割: train
白俄罗斯语 (Cyrillic 脚本)
- 配置名称: bel-Cyrl
- 数据文件路径: v1.0/bel-Cyrl/*.parquet
- 数据分割: train
卡纳达语 (Kannada 脚本)
- 配置名称: kan-Knda
- 数据文件路径: v1.0/kan-Knda/*.parquet
- 数据分割: train
波斯尼亚语 (Latin 脚本)
- 配置名称: bos-Latn
- 数据文件路径: v1.0/bos-Latn/*.parquet
- 数据分割: train
古吉拉特语 (Gujarati 脚本)
- 配置名称: guj-Gujr
- 数据文件路径: v1.0/guj-Gujr/*.parquet
- 数据分割: train
僧伽罗语 (Sinhala 脚本)
- 配置名称: sin-Sinh
- 数据文件路径: v1.0/sin-Sinh/*.parquet
- 数据分割: train
乌兹别克语 (Latin 脚本)
- 配置名称: uzn-Latn
- 数据文件路径: v1.0/uzn-Latn/*.parquet
- 数据分割: train
乌兹别克语 (Cyrillic 脚本)
- 配置名称: uzn-Cyrl
- 数据文件路径: v1.0/uzn-Cyrl/*.parquet
- 数据分割: train
菲律宾语 (Latin 脚本)
- 配置名称: fil-Latn
- 数据文件路径: v1.0/fil-Latn/*.parquet
- 数据分割: train
旁遮普语 (Gurmukhi 脚本)
- 配置名称: pan-Guru
- 数据文件路径: v1.0/pan-Guru/*.parquet
- 数据分割: train
挪威语 (Nynorsk, Latin 脚本)
- 配置名称: nno-Latn
- **数据文件路径

搜集汇总

数据集介绍

构建方式

GlotCC数据集通过采用Ungoliant管道从CommonCrawl中提取文本构建而成。为克服现有语言识别模型（LID）的局限性，如哈希冲突和有限的语言覆盖，研究团队开发了GlotLID v3.0模型，该模型扩展了GlotLID v1.0，涵盖超过2000种语言标签。此外，Ungoliant管道通过多种过滤技术进行了扩展，包括去除一般网络噪音、列表类内容、重复词文档和‘不一致’文档，即LID检测到多种语言的文档。这些措施确保了数据集的高质量和高可信度。

特点

GlotCC数据集的主要特点是其广泛的覆盖范围，涵盖了超过1000种语言，其中许多是少数语言。此外，该数据集通过开源可复现的管道生成，确保了其透明性和可重复性。数据集经过严格的噪音清理，提供了高质量的文档级文本，适用于预训练生成语言模型及其他需要超越句子级别信息的语言技术。

使用方法

GlotCC数据集可用于预训练生成语言模型，也可用于其他需要文档级信息的语言技术。用户可以通过Huggingface平台访问该数据集，并利用其提供的元数据进行进一步的分析和处理。由于数据集经过多重质量警告过滤，用户在使用时应仔细评估其特定用途，以确保数据集的适用性和效果。

背景与挑战

背景概述

GlotCC数据集由慕尼黑大学和索邦大学的研究人员创建，旨在解决预训练语言模型对少数语言数据不足的问题。该数据集于2024年发布，主要研究人员包括Amir Hossein Kargaran、François Yvon和Hinrich Schütze。GlotCC的核心研究问题是如何构建一个覆盖广泛少数语言、通过开源可复现的管道生成且经过严格去噪处理的语料库。该数据集的推出对语言技术领域具有重要影响，特别是为少数语言的语言模型训练提供了宝贵的资源。

当前挑战

GlotCC数据集在构建过程中面临多项挑战。首先，解决少数语言数据不足的问题需要克服语言识别模型（LID）在处理这些语言时的局限性，如哈希冲突和语言覆盖范围有限。其次，从CommonCrawl中提取高质量文本时，需应对多种噪声源，如误渲染的PDF文件和字符编码错误。此外，确保数据集的清洁度和可信度，以及处理个人身份信息（PII）的替换问题，也是构建过程中必须解决的难题。

常用场景

经典使用场景

GlotCC数据集的经典使用场景主要集中在语言技术的预训练和多语言文本处理任务中。由于其覆盖了超过1000种语言，且数据经过严格清洗，该数据集特别适用于构建和评估大规模多语言语言模型。例如，研究者可以利用GlotCC进行跨语言的文本分类、机器翻译和语言识别等任务，尤其是在处理低资源和少数民族语言时，其优势更为明显。

解决学术问题

GlotCC数据集解决了多语言自然语言处理中的一个关键问题，即缺乏高质量、广泛覆盖的少数民族语言数据。传统的语言模型和数据集主要集中在高资源语言上，而GlotCC通过提供一个包含大量少数民族语言的清洁数据集，填补了这一空白。这不仅有助于推动多语言NLP技术的发展，还为研究者提供了一个评估和改进模型在低资源语言上性能的平台。

衍生相关工作

GlotCC数据集的发布催生了一系列相关研究和工作。例如，基于GlotCC的改进语言识别模型GlotLID v3.0的开发，显著提升了对少数民族语言的识别能力。此外，GlotCC还激发了对多语言数据清洗和质量控制方法的研究，推动了多语言NLP领域的技术进步。许多研究团队已经开始利用GlotCC进行多语言模型的训练和评估，进一步扩展了其应用范围和影响力。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集