CC-zh

Hugging Face2025-04-16 更新2025-04-07 收录

下载链接：

https://huggingface.co/datasets/Geralt-Targaryen/CC-zh

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是从Common Crawl中提取的高质量中文文本，经过了一系列清洗步骤，包括移除含有超过2%非中英字符的文档、超过30%数字或大写字母的文档、被fasttext识别为非中文的文档、转换繁体中文为简体中文、移除低质量文档（例如模板、广告），并且对文本进行了去重处理。此外，使用了Qwen2.5-32B-Instruct模型对约930万中文文档和920万英文文档进行了语言质量标注，并从中抽样平衡标注分布，使用XLM-RoBERT-large分类器进行回归训练，移除了得分低于4的文档。

This dataset comprises high-quality Chinese text extracted from Common Crawl, which underwent a series of cleaning processes. These steps include removing documents with over 2% non-Chinese and non-English characters, documents containing more than 30% digits or uppercase letters, documents identified as non-Chinese by fasttext, converting Traditional Chinese to Simplified Chinese, eliminating low-quality documents such as templates and advertisements, and conducting deduplication on the text. Furthermore, the Qwen2.5-32B-Instruct model was utilized to perform language quality annotation on approximately 9.3 million Chinese documents and 9.2 million English documents. Subsequently, sampling was carried out to balance the annotation distribution, followed by regression training using the XLM-RoBERT-large classifier, and finally removing documents with scores lower than 4.

创建时间：

2025-04-02

搜集汇总

数据集介绍

构建方式

在构建CC-zh数据集的过程中，研究人员采用了多层次的严格筛选机制以确保文本质量。原始数据源自Common Crawl，通过一系列精细化的清洗步骤进行处理：首先排除非中英文字符比例超过2%或数字大写字母占比超过30%的文档；随后利用fasttext进行语言识别，剔除非中文内容；繁体中文统一转换为简体中文。基于行均长度、特殊字符比例等统计特征，采用启发式方法去除低质量文本如广告和模板内容。在约100GB压缩文本的桶内执行精确去重，虽未全局去重但跨桶重复率仅0.03%。最终通过Qwen2.5-32B-Instruct模型对930万中文文档进行1-5级质量标注，并训练XLM-RoBERT-large分类器剔除评分低于4的文档。

特点

CC-zh数据集的核心价值体现在其严谨的质量控制体系与语言多样性。该数据集不仅通过字符构成分析和语言模型过滤确保了文本的纯粹性，还创新性地引入大模型标注机制——使用32B参数的Qwen2.5-Instruct对近千万文档进行质量评分，其标注结果与72B版本保持0.75的相关系数且人工验证可靠。特别值得注意的是，数据集在繁体简化和跨桶去重方面展现出工程智慧，既保留了汉语的丰富表达，又通过平衡采样使398K中文文档的标签分布趋于合理。统计显示最终保留的文档质量评分集中在3-4分区间，在语言质量与数据规模间取得优化平衡。

使用方法

该数据集适用于训练需要高质量中文语料的自然语言处理模型，使用者可通过HuggingFace平台获取经过最终筛选的文档集合。研究人员应重点关注模型标注的质量分数分布，不同评分区间的文本可针对性用于不同任务——4分以上文档适合作为生成式模型的训练数据，3-4分文档经二次筛选后可用于预训练任务。由于数据集已进行字符标准化和简体转换，特别适合简体中文场景下的语义理解研究。需要注意的是，使用时应遵守odc-by许可协议，若涉及商业应用需确认合规性。对于需要特定领域文本的研究，建议结合原始质量评分进行子集筛选。

背景与挑战

背景概述

CC-zh数据集是基于Common Crawl项目的高质量中文文本资源，经过多层次的清洗和优化处理。该数据集的构建旨在解决自然语言处理领域中高质量中文语料匮乏的问题，为中文文本分类、机器翻译、语言模型预训练等任务提供可靠的数据支持。数据集通过严格的筛选机制，包括语言识别、繁简转换、去重处理以及基于大模型的质量评分，确保了文本的纯净性和可用性。这一工作由前沿研究团队主导，融合了最新的自然语言处理技术，显著提升了中文语料库的标准，对推动中文信息处理技术的发展具有重要影响。

当前挑战

CC-zh数据集在构建过程中面临多重挑战。首要挑战在于如何从海量且噪声较高的Common Crawl数据中精准识别和提取高质量中文文本，这需要设计复杂的过滤规则和高效的算法。其次，数据清洗过程中需平衡文本质量与数据多样性，避免因过度过滤导致语料代表性不足。此外，全局去重因内存限制难以实现，可能遗留少量重复数据。最后，依赖大模型进行质量评分虽提升了准确性，但计算成本高昂，且模型间评分一致性需进一步验证。这些挑战反映了大规模语料库构建中的共性问题，也为后续研究提供了改进方向。

常用场景

经典使用场景

在自然语言处理领域，CC-zh数据集因其高质量的中文文本内容，成为训练和评估语言模型的理想选择。该数据集经过严格的清洗和标注流程，确保了文本的纯净性和语言质量，特别适用于需要大规模中文语料的研究项目。研究人员常利用该数据集进行预训练模型的微调，以提升模型在中文语境下的理解和生成能力。

衍生相关工作

围绕CC-zh数据集，学术界已衍生出多项重要研究成果。其中包括基于该数据集训练的中文预训练语言模型，以及针对中文文本质量评估的创新方法。这些工作不仅推动了中文自然语言处理技术的发展，也为后续研究者提供了宝贵的参考范例和技术路线。

数据集最近研究