CLUECorpus2020

Name: CLUECorpus2020
Creator: CLUE组织
Published: 2020-03-05 11:20:33
License: 暂无描述

arXiv2020-03-05 更新2024-06-21 收录

下载链接：

https://github.com/CLUEbenchmark/CLUECorpus2020/

下载链接

链接失效反馈

官方服务：

资源简介：

CLUECorpus2020是由CLUE组织创建的大型中文语料库，旨在支持语言模型的预训练和语言生成。该数据集包含100GB的原始文本，总计350亿个中文字符，来源于Common Crawl。数据集被分为训练、开发和测试集，每个文件都遵循预训练格式。创建过程中，通过详细的过滤和提取规则，确保数据质量。CLUECorpus2020广泛应用于中文自然语言处理任务，如语言理解和生成，旨在提升模型在中文环境下的性能。

CLUECorpus2020 is a large-scale Chinese corpus created by the CLUE organization, designed to support the pre-training of language models and language generation. The dataset contains 100GB of original text, totaling 35 billion Chinese characters, sourced from Common Crawl. It is divided into training, development, and test sets, with each file adhering to the pre-training format. During the creation process, detailed filtering and extraction rules were applied to ensure data quality. CLUECorpus2020 is widely used in Chinese natural language processing tasks such as language understanding and generation, aiming to enhance model performance in the Chinese environment.

提供机构：

CLUE组织

创建时间：

2020-03-03

搜集汇总

数据集介绍

构建方式

CLUECorpus2020的构建基于Common Crawl的网络爬取数据，经过精细的筛选和处理，最终形成了一个包含100GB原始文本、约350亿个中文字符的大型语料库。该数据集的构建过程中，采用了多种过滤规则，如去除无效字符、重复内容以及包含不良词汇的句子，确保了数据的高质量和适用性。此外，数据集按照99:0.5:0.5的比例随机划分为训练集、开发集和测试集，以支持不同阶段的模型训练和评估。

特点

CLUECorpus2020的主要特点在于其规模庞大且质量上乘，适用于自监督学习任务，如语言模型的预训练和语言生成。该数据集不仅覆盖了广泛的主题领域，还包含了一个精简的8K词汇表（vocab clue），该词汇表仅为Google发布的BERT中文词汇表大小的三分之一，但在性能上却能与之媲美，显著降低了计算成本和内存占用。此外，数据集还提供了预训练模型的大版本和小版本，分别在性能和速度上有所优化。

使用方法

CLUECorpus2020可广泛应用于自然语言处理的各种任务，包括但不限于语言模型的预训练、文本分类、情感分析和机器翻译等。用户可以直接使用数据集进行自监督学习，或利用其提供的预训练模型进行微调，以适应特定的下游任务。此外，数据集的开放性和详细的使用文档，使得研究人员和开发者能够轻松地进行实验和应用开发，推动中文自然语言处理领域的发展。

背景与挑战

背景概述

在自然语言处理（NLP）领域，预训练语言模型已成为主流范式，其通过在大规模未标注文本上预训练模型，然后在下游任务上微调，显著提升了模型性能。然而，尽管英文领域已有多个大规模预训练数据集，如C4和WebText，中文领域却缺乏类似的高质量、大规模数据集。为此，CLUE组织于2020年发布了CLUECorpus2020，这是一个包含100GB原始文本、350亿中文字符的大规模中文语料库，旨在为中文预训练语言模型提供支持。该数据集的发布填补了中文NLP领域的空白，为研究人员提供了丰富的资源，推动了中文自然语言处理技术的发展。

当前挑战

尽管CLUECorpus2020为中文NLP领域带来了巨大的潜力，但其构建和应用过程中仍面临诸多挑战。首先，数据集的构建需要从Common Crawl中提取和过滤大量文本，这一过程涉及复杂的预处理和清洗步骤，以确保数据的质量和适用性。其次，数据集的规模和多样性要求高效的计算资源和存储解决方案，这对于许多研究机构和个人开发者而言是一个重大挑战。此外，如何有效地利用这一大规模数据集进行模型预训练，并在有限的计算资源下实现高性能，是当前研究的一个重要方向。最后，数据集的发布和维护需要持续的技术支持和社区协作，以确保其长期可用性和更新。

常用场景

经典使用场景

CLUECorpus2020 数据集最经典的使用场景在于预训练语言模型。通过利用该数据集，研究者可以训练出高性能的中文语言模型，这些模型在语言理解任务中表现出色。例如，BERT 和 RoBERTa 等模型在经过 CLUECorpus2020 的预训练后，能够在多种中文自然语言处理任务中达到最先进的性能。

解决学术问题

CLUECorpus2020 数据集解决了中文领域缺乏大规模预训练数据的问题。在自然语言处理领域，预训练模型依赖于大规模的文本数据进行训练，而此前中文领域缺乏这样的资源。CLUECorpus2020 的发布填补了这一空白，为研究者提供了丰富的中文文本数据，促进了中文自然语言处理技术的发展，具有重要的学术意义和实际应用价值。

衍生相关工作

CLUECorpus2020 数据集的发布催生了一系列相关研究工作。例如，基于该数据集，研究者们开发了多种中文预训练模型，如 RoBERTa-tiny-clue 和 RoBERTa-large-clue，这些模型在保持高性能的同时，显著降低了计算资源的需求。此外，CLUECorpus2020 还推动了对中文词汇表的优化研究，如 vocab clue 的提出，进一步提升了模型的效率和性能。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集