CC100

arXiv2025-09-30 收录

下载链接：

http://data.statmt.org/cc-100/

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为CC100语料库，涵盖了116种语言的母语数据，其中包括5种罗马化语言。此外，该数据集被用于训练ERNIE-M Extra模型，任务是对多语言语言模型进行预训练。

The dataset is named the CC100 Corpus, which contains native-language data spanning 116 distinct languages, including 5 romanized languages. Moreover, this corpus is utilized to train the ERNIE-M Extra model for the pre-training of multilingual language models.

5,000+

优质数据集

54 个

任务类型

进入经典数据集