CLUECorpus2020

github2020-12-02 更新2024-05-31 收录

下载链接：

https://github.com/YanNi102/CLUECorpus2020

下载链接

链接失效反馈

官方服务：

资源简介：

通过对Common Crawl的中文部分进行语料清洗，最终得到100GB的高质量中文预训练语料。该数据集可直接用于预训练、语言模型或语言生成任务，并发布了专用于简体中文NLP任务的小词表。

By meticulously cleaning the Chinese portion of the Common Crawl, a high-quality Chinese pre-training corpus of 100GB was ultimately obtained. This dataset is directly applicable for pre-training, language modeling, or language generation tasks, and a specialized small vocabulary for Simplified Chinese NLP tasks has been released.

创建时间：

2020-11-25

原始信息汇总

数据集概述

CLUECorpus2020

数据来源与处理：通过对Common Crawl的中文部分进行语料清洗，得到100GB的高质量中文预训练语料。
数据特点：
- 可直接用于预训练、语言模型或语言生成任务。
- 发布专用于简体中文NLP任务的小词表。
词表统计：

Token Type Google CLUE

Simplified Chinese 11378 5689

English 3529 1320

Numbers 1179 140

Special Tokens 106 106

Other Tokens 959 766

Total 21128 8021
实验效果：
- 使用小数据集在BERT-base上的效果对比，详细性能指标包括AFQMC、TNEWS、IFLYTEK、CMNLI等。
数据下载：
- 申请方式：需将研究目的和用途、计划、研究机构和申请者介绍发送到邮箱，并承诺不向第三方提供。
- 邮箱：CLUEbenchmark@163.com，标题：CLUECorpus2020 100G语料库。

CLUECorpusSmall（14G）

数据用途：可用于语言建模、预训练或生成型任务。
数据量：超过14G，近4000个定义良好的txt文件、50亿个字。
数据来源：主要部分来自于nlp_chinese_corpus项目。
数据格式：每句话一行，文档间空行隔开。
子语料库：
- 新闻语料 news2016zh_corpus：8G语料，2000个小文件。
- 社区互动-语料 webText2019zh_corpus：3G语料，900多个小文件。
- 维基百科-语料 wiki2019zh_corpus：1.1G左右文本，300左右小文件。
- 评论数据-语料 comments2019zh_corpus：2.3G左右文本，784个小文件。
下载方式：通过百度网盘提供，需输入密码。

搜集汇总

数据集介绍

构建方式

CLUECorpus2020数据集的构建基于Common Crawl的中文部分，经过严格的语料清洗流程，最终生成了100GB的高质量中文预训练语料。该过程确保了语料的纯净度和适用性，使其能够直接用于多种自然语言处理任务。此外，数据集还包括一个专为简体中文NLP任务设计的小词表，进一步提升了其在特定任务中的应用效果。

特点

CLUECorpus2020数据集的特点在于其大规模和高品质的中文语料，特别适用于预训练和语言生成任务。数据集中的小词表经过精心设计，减少了词汇量，从而提高了模型训练的效率。此外，数据集的多样性和广泛性使其能够支持从基础研究到实际应用的广泛需求。

使用方法

使用CLUECorpus2020数据集时，研究人员和开发者可以通过邮件申请获取数据，需提供研究目的和用途等信息。数据集适用于多种自然语言处理任务，如语言模型训练、文本生成等。通过利用该数据集，用户可以训练出性能优越的中文处理模型，推动中文自然语言处理技术的发展。

背景与挑战

背景概述

CLUECorpus2020是由CLUEbenchmark团队于2020年发布的一个大规模中文预训练语料库，旨在为中文自然语言处理（NLP）任务提供高质量的训练数据。该数据集通过对Common Crawl的中文部分进行清洗和筛选，最终生成了100GB的高质量语料。其主要研究人员包括Liang Xu、Xuanwei Zhang和Qianqian Dong，相关技术报告发表于arXiv。CLUECorpus2020不仅支持预训练和语言生成任务，还发布了专用于简体中文NLP任务的小词表，显著提升了中文语言模型的训练效率。该数据集的发布对中文NLP领域的研究和应用产生了深远影响，推动了中文预训练模型的发展。

当前挑战

CLUECorpus2020在构建和应用过程中面临多重挑战。首先，中文语料的清洗和筛选过程复杂，需要去除噪声数据并确保语料的高质量，这对数据处理技术提出了较高要求。其次，中文语言的多样性和复杂性使得词表设计尤为关键，如何在简化词表的同时保持语义完整性是一个技术难点。此外，尽管该数据集在预训练任务中表现出色，但在特定领域任务（如医疗、法律等）上的泛化能力仍需进一步提升。最后，数据集的规模庞大，对计算资源和存储空间的需求较高，这在一定程度上限制了其广泛应用。

常用场景

经典使用场景

CLUECorpus2020数据集在自然语言处理领域中被广泛用于中文预训练模型的开发与优化。该数据集通过对Common Crawl的中文部分进行清洗，提供了100GB的高质量中文语料，特别适用于语言模型的预训练、语言生成任务以及简体中文NLP任务的研究。其小词表设计进一步提升了模型在特定任务上的表现，成为中文NLP研究中的重要资源。

实际应用

在实际应用中，CLUECorpus2020被广泛用于中文搜索引擎优化、智能客服系统、机器翻译以及社交媒体内容分析等领域。其高质量语料为这些应用提供了坚实的语言模型基础，显著提升了系统的准确性和响应速度。例如，在智能客服中，基于该数据集训练的模型能够更准确地理解用户意图，提供更自然的对话体验。

衍生相关工作

CLUECorpus2020的发布催生了一系列经典的中文NLP研究工作。例如，基于该数据集训练的BERT-base模型在多个中文NLP任务中取得了显著的效果提升。此外，该数据集还推动了中文预训练模型的多样化发展，如CLUEPretrainedModels项目中的大号、超小和相似度预训练模型，进一步丰富了中文NLP研究的工具和方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集

Token Type	Google	CLUE
Simplified Chinese	11378	5689
English	3529	1320
Numbers	1179	140
Special Tokens	106	106
Other Tokens	959	766
Total	21128	8021