opencsg/chinese-fineweb-edu
收藏Hugging Face2025-12-12 更新2024-12-14 收录
下载链接:
https://hf-mirror.com/datasets/opencsg/chinese-fineweb-edu
下载链接
链接失效反馈官方服务:
资源简介:
Chinese Fineweb Edu 数据集是一个精心构建的高质量中文预训练语料数据集,专为教育领域的自然语言处理任务设计。该数据集通过严格的筛选和去重流程,利用少量数据训练打分模型进行评估,从海量的原始数据中提取出高价值的教育相关内容,确保数据的质量和多样性。最终,数据集包含约90M条高质量的中文文本数据,总大小约为300GB。
The Chinese Fineweb Edu dataset is a meticulously constructed high-quality Chinese pre-training corpus, specifically designed for natural language processing tasks in the education domain. This dataset undergoes a rigorous selection and deduplication process, using a scoring model trained on a small amount of data for evaluation. From vast amounts of raw data, it extracts high-value education-related content, ensuring the quality and diversity of the data. Ultimately, the dataset contains approximately 90 million high-quality Chinese text entries, with a total size of about 300GB. The selection method includes educational value assessment, scoring model training, data selection, and MinHash deduplication. The original data sources include CCI2-Data, SkyPile-150B, IndustryCorpus, Tele-AI, and MAP-CC. The scoring model uses OpenCSGs csg-wukong-enterprise enterprise-grade large language model to score pre-training samples on a scale of 0-5. Ablation experiments validate the effectiveness of the dataset, which supports commercial use and must adhere to the OpenCSG Community License.
提供机构:
opencsg
搜集汇总
数据集介绍

构建方式
在教育领域的自然语言处理任务中,高质量预训练语料的构建至关重要。Chinese Fineweb Edu 数据集通过一套严谨的筛选与去重流程,从海量原始数据中提炼出高价值的教育相关内容。其构建过程借鉴了 Fineweb-Edu 的策略,首先利用 OpenCSG 的 csg-wukong-enterprise 企业级大模型对样本进行教育价值评估,从0到5分逐级打分,并从中选取约10万条高分样本。随后,基于这些样本训练一个 BERT 模型,使其具备对更大规模预训练数据集进行文本打分的能力。接着,运用该 BERT 模型对原始数据进行全面评分,仅保留得分大于4的高质量数据。最后,采用 MinHash 算法对所有数据进行去重处理,确保数据的独特性与多样性。该数据集整合了 CCI2-Data、SkyPile-150B、IndustryCorpus、Tele-AI 和 MAP-CC 等多个主流中文预训练语料库,最终形成约9000万条高质量中文文本,总容量约300GB。
特点
Chinese Fineweb Edu 数据集的核心特点在于其卓越的教育价值导向与数据质量的极致追求。通过基于教育价值的评分机制,数据集精准筛选出与学校课程高度相关、内容连贯且易于理解的教育文本,尤其适合小学至中学阶段的教学场景。数据来源的广泛性与多样性,覆盖了安全数据、行业数据、电信语料等多个领域,使得数据集在保持高质量的同时,具备强大的泛化能力。消融实验表明,使用该数据集训练的模型在 CEval 和 CMMLU 等中文评测基准上,显著优于随机抽取的传统预训练语料,尤其在训练后期,准确率呈现明显上升趋势,展现出高质量数据对模型性能的加速提升作用。此外,数据集采用 Apache 2.0 许可证,支持商业使用,并已发布技术报告,为研究社区提供了透明的构建细节与复现基础。
使用方法
Chinese Fineweb Edu 数据集专为文本生成任务设计,适用于中文大语言模型的预训练与微调。用户可通过 HuggingFace 平台直接加载数据集,其格式为标准的文本数据,便于集成到常见的深度学习框架中。在使用时,建议将数据集作为预训练语料,结合模型训练流程进行分批次读取,以充分利用其高质量的教育文本内容。数据集已内置教育价值评分标签,用户可根据需求进一步筛选或加权样本。对于商业用途,需遵循 OpenCSG 社区许可证与 Apache 2.0 许可证的条款,通过邮件联系获取许可。该数据集的最新版本已更新为 Fineweb-Edu-Chinese-V2.1,旧版本已弃用,建议用户优先采用新版本以获得更优的数据质量与性能表现。
背景与挑战
背景概述
随着大规模语言模型在自然语言处理领域的广泛应用,高质量中文预训练语料的匮乏成为制约模型性能提升的关键瓶颈。为应对这一挑战,OpenCSG团队于2025年发布了Chinese Fineweb Edu数据集,该数据集由Yijiong Yu、Ziyun Dai等研究人员主导构建,专注于教育领域的高质量中文文本。其核心研究问题在于如何从海量互联网数据中筛选出具有教育价值的语料,以提升模型在中文教育场景下的理解与生成能力。该数据集整合了CCI2-Data、SkyPile-150B等多个主流中文语料库,通过精细筛选与去重,最终形成约300GB、涵盖9000万条高质量文本的预训练资源。其在CEval和CMMLU等基准上的消融实验表明,使用该数据集训练的模型性能显著优于随机采样语料,证明了高质量数据选择对模型训练的深远影响,为中文自然语言处理领域提供了重要的数据基础。
当前挑战
Chinese Fineweb Edu数据集所面临的挑战主要体现在两个层面。在领域问题层面,其核心任务是解决教育场景下中文预训练语料的稀缺性与质量不均问题,传统互联网语料充斥广告、低质内容,难以直接用于训练具备教育推理能力的模型。在构建过程中,团队经历了多重技术挑战:首先,如何定义并量化“教育价值”成为关键难题,他们借助csg-wukong-enterprise大模型进行0-5分的主观评估,但评分标准的主观性可能导致偏差;其次,基于10万条高评分样本训练BERT打分模型时,小样本训练易引入过拟合风险,影响大规模筛选的泛化能力;此外,面对来自五个不同来源的异构数据,需处理格式不一致、噪音冗余等问题,并采用MinHash算法进行去重,以平衡数据多样性与独特性,这些步骤均对计算资源与算法鲁棒性提出了严苛要求。
常用场景
经典使用场景
Chinese Fineweb Edu 数据集最经典的使用场景在于为中文大语言模型提供高质量的教育领域预训练语料。研究者通常利用该数据集对模型进行从头预训练或领域继续预训练,以提升模型在中文教育文本理解与生成任务上的表现。该数据集经过基于教育价值的精细评分筛选与MinHash去重,确保了内容的学术相关性与多样性,尤其适用于训练能够处理教科书、教学指南、习题解答等结构化教育内容的大语言模型,为教育智能化的基础模型构建提供了坚实的数据支撑。
衍生相关工作
该数据集衍生了一系列具有影响力的经典工作。OpenCSG团队基于评分过程开源了fineweb_edu_classifier_chinese_data标注数据集及fineweb_edu_classifier_chinese BERT评分模型,为社区提供了可复现的教育文本质量评估工具。此外,该数据集的技术报告发表于arXiv,详述了数据构建与消融实验方法,成为后续中文教育语料构建的重要参考。相关工作还包括基于该数据集训练的中文教育大模型,其在学科知识问答、教材内容摘要等下游任务上展现出优异性能,推动了从数据到模型的全链条教育AI研究范式的发展。
数据集最近研究
最新研究方向
当前,中文教育领域大语言模型的预训练语料构建正朝着精细化、高质量化方向演进。Chinese Fineweb Edu 数据集作为该方向的代表性成果,聚焦于从海量互联网文本中筛选出具有高教育价值的内容,通过类似 Fineweb-Edu 的评分策略与 MinHash 去重技术,最终凝练出约 90M 条、300GB 的高质量中文教育语料。该数据集的前沿研究意义在于,它不仅整合了 CCI2-Data、SkyPile-150B 等多个主流中文预训练语料库的精华,还通过消融实验验证了高质量教育数据对模型性能的显著提升——在 CEval 和 CMMLU 等中文评测基准上,使用 Chinese Fineweb Edu 训练的 2.1B 参数模型在训练后期展现出远超随机采样数据的准确率跃升。这一发现与 HuggingFace 在 Fineweb Edu 上的数据消融实验遥相呼应,深刻揭示了数据集筛选策略对模型能力上限的关键影响,为构建更高效、更专业的中文教育大模型奠定了坚实的语料基础。
以上内容由遇见数据集搜集并总结生成



