ChineseWebText2.0-HighQuality
收藏Hugging Face2026-03-03 更新2026-03-04 收录
下载链接:
https://huggingface.co/datasets/Morton-Li/ChineseWebText2.0-HighQuality
下载链接
链接失效反馈官方服务:
资源简介:
ChineseWebText2.0-HighQuality 是一个高质量的中文文本数据集,源自 CASIA-LM/ChineseWebText2.0(Apache-2.0 许可)。该数据集通过严格筛选,仅保留质量分数(quality_score)≥ 0.9 且毒性分数(toxicity.score)≤ 0.01 的样本,以确保数据的高质量和安全性。数据集经过轻度清理,移除非标准字符,但保留了原始元数据模式(包括域标签、毒性评分和质量评分)。该数据集适用于语言模型的预训练、指令微调以及对质量敏感的下游任务。数据集保留了原始数据的元数据结构,包括文本内容、域标签(单标签和多标签)、毒性评分(标签和分数)以及质量评分。推荐用于解码器或编码器-解码器语言模型的预训练、质量敏感的混合构建、安全敏感的数据蒸馏以及基于域标签的特定领域过滤。不推荐用于需要完整 ChineseWebText2.0 语料库分布的研究或需要毒性/低质量尾部数据进行鲁棒性评估的研究。数据集采用 Apache-2.0 许可分发,与源数据集相同。
ChineseWebText2.0-HighQuality is a high-quality Chinese text dataset derived from CASIA-LM/ChineseWebText2.0, which is licensed under Apache-2.0. This dataset undergoes strict filtering, only retaining samples with a quality_score ≥ 0.9 and a toxicity.score ≤ 0.01, to ensure high data quality and security. The dataset has been lightly cleaned to remove non-standard characters, while preserving the original metadata schema including domain labels, toxicity scores, and quality scores. This dataset is applicable to language model pre-training, instruction fine-tuning, and quality-sensitive downstream tasks. It retains the original metadata structure of the source data, including text content, domain labels (both single-label and multi-label), toxicity annotations (labels and scores), and quality scores. It is recommended for pre-training of decoder-only or encoder-decoder language models, quality-sensitive corpus mixing, security-aware data distillation, and domain-specific filtering based on domain labels. This dataset is not recommended for studies requiring the full distribution of the ChineseWebText2.0 corpus, or studies that need toxic/low-quality tail data for robustness evaluation. The dataset is distributed under the Apache-2.0 license, consistent with the source dataset.
创建时间:
2026-03-02
原始信息汇总
ChineseWebText2.0-HighQuality 数据集概述
基本信息
- 数据集名称: ChineseWebText2.0-HighQuality
- 维护者: Morton Li
- 许可证: Apache License 2.0
- 语言: 中文 (zh)
- 任务类别: 文本生成 (text-generation)
数据来源与性质
- 本数据集是 CASIA-LM/ChineseWebText2.0 数据集的一个高质量过滤子集。
- 该工作独立进行,与官方 CASIA-LM / ChineseWebText 维护者无关。
数据内容与结构
- 数据文件: 仅包含训练集 (train),路径为
data/*/*。 - 特征字段:
text(dtype: string): 文本内容。domain(struct): 领域标签。single_label(dtype: string): 单标签。multi_label(sequence: string): 多标签序列。
toxicity(struct): 毒性评分。label(dtype: int32): 毒性标签。score(dtype: float64): 毒性分数。
quality_score(dtype: float64): 质量分数。
构建方法
过滤规则
仅保留满足以下条件的样本:
quality_score≥ 0.9toxicity.score≤ 0.01
处理说明
- 对文本进行了轻度清洗,过滤了非标准字符。
- 仅移除了不符合阈值的样本。
- 未进行重写、去重或翻译。
- 保留了原始的元数据模式。
关键特点
- 源自 ChineseWebText2.0 (Apache-2.0 License)。
- 使用
quality_score ≥ 0.9进行质量过滤。 - 使用
toxicity.score ≤ 0.01进行安全过滤。 - 保留了原始的元数据模式。
- 适用于大语言模型预训练和混合数据构建。
使用建议
推荐用途
- 解码器或编码器-解码器语言模型的预训练。
- 对质量敏感的数据混合构建。
- 对安全敏感的数据蒸馏。
- 基于保留的领域标签进行特定领域过滤。
不推荐用途
- 需要完整 ChineseWebText2.0 语料库原始分布的研究。
- 明确需要有毒/低质量尾部数据进行鲁棒性评估的研究。
引用信息
若使用本数据集,请引用:
@misc{chinesewebtext2_highquality, title = {ChineseWebText2.0-HighQuality: A High-Quality Subset of ChineseWebText2.0}, author = {Morton Li}, year = {2026}, note = {Derived from CASIA-LM/ChineseWebText2.0 (Apache-2.0 License)} }
致谢
感谢 ChineseWebText2.0 (CASIA-LM) 的创建者。
搜集汇总
数据集介绍
构建方式
在中文自然语言处理领域,构建高质量语料库是推动大语言模型发展的关键。ChineseWebText2.0-HighQuality数据集源于CASIA-LM/ChineseWebText2.0这一大规模原始语料,通过设定严格的双重过滤规则精心构建而成。其核心构建逻辑是依据预设的质量与安全阈值,仅保留质量评分不低于0.9且毒性评分不高于0.01的文本样本,同时辅以轻量级文本清洗以移除非标准字符。这一过程完整保留了原始数据的元数据结构,包括领域标签和各项评分,确保了数据衍生过程的透明性与可追溯性。
特点
该数据集的核心特征体现在其卓越的纯净度与结构化元数据上。作为原始语料的高质量子集,它通过双重过滤机制有效剔除了低质量和含有潜在有害内容的文本,从而显著提升了语料的整体信噪比。数据集完整继承了源数据的丰富元信息,如细粒度的领域分类标签和量化的质量与毒性评分,这为研究者进行深入的领域分析、数据混合策略研究以及安全对齐实验提供了坚实的数据基础。其设计初衷明确服务于对数据质量与安全性有严苛要求的模型训练场景。
使用方法
该数据集主要应用于对数据质量敏感的自然语言处理任务。它非常适合作为预训练语料,用于构建或增强各类解码器或编码器-解码器架构的大语言模型,能够为模型注入高质量、低风险的语言知识。研究者亦可利用其保留的领域标签,进行特定领域的数据筛选与混合,以构建定制化的训练数据配方。然而,需要注意的是,由于其过滤过程改变了原始语料的分布,该数据集不适用于那些需要完整数据分布或专门研究模型在低质、有毒数据上鲁棒性的任务场景。
背景与挑战
背景概述
在自然语言处理领域,高质量中文语料库的构建对于推动大语言模型的发展至关重要。ChineseWebText2.0-HighQuality数据集由Morton Li于2026年创建,其核心研究问题聚焦于从大规模原始网络文本中筛选出高质量、低毒性的中文语料,以支持语言模型的预训练、指令微调及相关下游任务。该数据集源于中国科学院自动化研究所(CASIA-LM)发布的ChineseWebText2.0,通过严格的过滤规则,保留了质量评分不低于0.9且毒性评分不高于0.01的样本,旨在为学术界和工业界提供一个更纯净、可靠的数据资源,从而促进中文语言模型在安全性与性能上的协同优化。
当前挑战
该数据集旨在应对中文网络文本中普遍存在的质量参差与内容安全性问题,其核心挑战在于如何从海量、异构的原始数据中精准识别并提取高质量语料,同时有效过滤有害信息,以保障模型训练的数据纯净度。在构建过程中,挑战具体体现为:需设计稳健的自动化过滤机制,平衡质量阈值与数据多样性的保留;面对中文文本特有的字符编码、方言变体及非标准表达,实施轻量级清洗时需避免信息损失;此外,在衍生子集时维持原始元数据结构的完整性,确保下游任务能充分利用领域标签等辅助信息,也是一项技术难点。
常用场景
经典使用场景
在中文自然语言处理领域,大规模预训练语言模型的构建依赖于高质量文本语料。ChineseWebText2.0-HighQuality通过严格的质控筛选,为模型预训练提供了纯净的语料基础。该数据集特别适用于训练生成式语言模型,其高质低毒的特性确保了模型在吸收知识的同时,有效规避了有害内容的干扰,从而为后续的指令微调和下游任务奠定了坚实的语言理解与生成能力。
实际应用
在实际应用层面,该数据集可直接服务于商业或开源中文大语言模型的开发与优化。企业可利用其构建更安全、更精准的智能客服、内容创作与信息摘要系统。同时,其保留的领域标签支持特定垂直场景(如金融、科技)的数据筛选,为行业定制化模型提供数据支撑,显著提升了AI产品在真实环境中的实用性与用户信任度。
衍生相关工作
围绕该数据集衍生的经典工作主要集中在高质量中文语料库的构建方法与评估体系上。例如,基于其过滤策略,研究者进一步探索了多维度数据清洗技术、毒性检测模型的优化,以及如何在预训练中平衡数据质量与多样性。这些工作不仅丰富了中文NLP资源生态,也为后续如ChineseLLaMA、ChatGLM等系列模型的训练提供了关键的数据预处理范本与理论参考。
以上内容由遇见数据集搜集并总结生成



