CLUECorpus2020

github2024-05-20 更新2024-05-31 收录

下载链接：

https://github.com/CLUEbenchmark/CLUECorpus2020

下载链接

链接失效反馈

官方服务：

资源简介：

通过对Common Crawl的中文部分进行语料清洗，最终得到100GB的高质量中文预训练语料。可直接用于预训练、语言模型或语言生成任务，并发布专用于简体中文NLP任务的小词表。

Through the meticulous cleaning of the Chinese portion of the Common Crawl, a high-quality Chinese pre-training corpus of 100GB has been obtained. This corpus is directly applicable for pre-training, language modeling, or language generation tasks, and a specialized small vocabulary for Simplified Chinese NLP tasks has been released.

创建时间：

2020-01-25

原始信息汇总

数据集概述

CLUECorpus2020

数据来源与处理：通过对Common Crawl的中文部分进行语料清洗，得到100GB的高质量中文预训练语料。
数据特点：
- 可直接用于预训练、语言模型或语言生成任务。
- 发布专用于简体中文NLP任务的小词表。

词表统计：

Token Type	Google	CLUE
Simplified Chinese	11378	5689
Traditional Chinese	3264	✗
English	3529	1320
Japanese	573	✗
Korean	84	✗
Emoji	56	✗
Numbers	1179	140
Special Tokens	106	106
Other Tokens	959	766
Total	21128	8021

实验效果：提供了在BERT-base模型上使用不同词表和数据集的性能对比。
数据下载：需通过邮箱申请，发送研究目的和用途等信息。

CLUECorpusSmall（14G）

数据用途：可用于语言建模、预训练或生成型任务等。
数据量：超过14G，包含近4000个定义良好的txt文件、50亿个字。
数据组成：
- 新闻语料：8G，2000个小文件。
- 社区互动-语料：3G，900多个小文件。
- 维基百科-语料：1.1G，300左右小文件。
- 评论数据-语料：2.3G，784个小文件。
数据格式：预训练格式，每句话一行，文档间空行隔开。

搜集汇总

数据集介绍

构建方式

CLUECorpus2020数据集通过从Common Crawl中提取中文部分语料，经过严格的清洗和处理，最终构建出100GB的高质量中文预训练语料。这一过程确保了语料的多样性和纯净性，为后续的语言模型训练提供了坚实的基础。

特点

该数据集具有显著的特点，包括其大规模的语料量和高质量的文本内容，特别适用于预训练、语言模型及语言生成任务。此外，数据集还发布了专为简体中文NLP任务设计的小词表，进一步提升了其在特定任务中的适用性。

使用方法

使用CLUECorpus2020数据集时，用户需提交研究目的和用途至指定邮箱，并承诺不向第三方提供数据。数据集可直接用于预训练模型，支持多种自然语言处理任务，如文本分类、命名实体识别等。详细的实验效果和分析可参考相关技术报告。

背景与挑战

背景概述

CLUECorpus2020是由CLUEbenchmark团队于2020年发布的一个大规模中文预训练语料库，旨在推动中文自然语言处理（NLP）领域的发展。该语料库通过对Common Crawl的中文部分进行深度清洗和处理，最终生成了100GB的高质量数据，适用于预训练、语言模型及语言生成任务。其核心研究问题是如何在中文NLP任务中构建一个高效且广泛适用的预训练语料库，以提升模型性能。该数据集的发布不仅为中文NLP研究提供了丰富的资源，还通过发布简体中文NLP任务的小词表，进一步促进了中文语言模型的优化与应用。

当前挑战

CLUECorpus2020在构建过程中面临了多个挑战。首先，从Common Crawl中提取和清洗高质量的中文语料是一个复杂且耗时的过程，需要解决噪声数据、不一致格式和多语言混杂等问题。其次，如何设计一个适用于中文NLP任务的小词表，以平衡模型的性能与计算资源的需求，也是一个重要的挑战。此外，尽管该语料库已经展示了在BERT-base模型上的显著效果，但在实际应用中，如何进一步优化模型以适应多样化的中文语言场景，仍然是一个持续的挑战。

常用场景

经典使用场景

CLUECorpus2020数据集的经典使用场景主要集中在自然语言处理领域，尤其是在中文预训练模型的构建与优化方面。该数据集通过清洗和整理来自Common Crawl的中文部分，提供了高质量的中文语料，适用于语言模型、文本生成、机器翻译等多种任务。其丰富的语料资源为研究者提供了强大的支持，尤其是在BERT等预训练模型的微调过程中，能够显著提升模型的性能。

解决学术问题

CLUECorpus2020数据集解决了中文自然语言处理领域中语料稀缺和质量参差不齐的问题。通过提供大规模、高质量的中文语料，该数据集为研究者提供了丰富的资源，使得在中文语言模型、文本分类、情感分析等任务中能够取得更好的效果。此外，该数据集还推动了中文预训练模型的研究进展，为学术界提供了新的研究方向和实验平台。

衍生相关工作

基于CLUECorpus2020数据集，研究者们开发了多种中文预训练模型，如BERT、GPT等，并在多个自然语言处理任务中取得了显著的成果。此外，该数据集还激发了大量关于中文语料清洗、预处理和模型优化的研究工作。这些衍生工作不仅提升了中文自然语言处理的整体水平，还为后续的研究提供了宝贵的经验和数据支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集