five

Chinese Fineweb Edu 高质量教育中文预训练语料数据集

收藏
魔搭社区2026-05-30 更新2024-09-07 收录
下载链接:
https://modelscope.cn/datasets/opencsg/chinese-fineweb-edu
下载链接
链接失效反馈
官方服务:
资源简介:
**Chinese Fineweb Edu** 数据集是一个精心构建的高质量中文预训练语料数据集,专为教育领域的自然语言处理任务设计。该数据集通过严格的筛选和去重流程,利用少量数据训练打分模型进行评估,从海量的原始数据中提取出高价值的教育相关内容,确保数据的质量和多样性。最终,数据集包含约90M条高质量的中文文本数据,总大小约为300GB

# 本版本已<font color="red">弃用</font>,推荐使用最新版本 [Fineweb-edu-chinese-v2.1](opencsg/Fineweb-Edu-Chinese-V2.1)! # **中文Fineweb Edu数据集** [[中文]](#chinese) [[英文]](#english) <a id="english"></a> <p align="center"> <img width="600px" alt="OpenCSG" src="./Chinese Fineweb Edu Dataset logo.webp"> </p> <p align="center"><a href="https://portal.opencsg.com/models">[OpenCSG社区]</a> <a href="https://github.com/yuyijiong/fineweb-edu-chinese">[👾GitHub]</a> <a href="https://cdn-uploads.huggingface.co/production/uploads/64c71b27d43e4dee51a8b31a/HU6vz21qKTEmUBCWqCFh9.jpeg">[微信]</a> <a href="https://twitter.com/OpenCsg">[Twitter]</a> </p> </div> [📖技术报告](https://arxiv.org/abs/2501.08197) **中文Fineweb Edu**数据集是一款精心构建的高质量中文预训练语料库,专为教育领域的自然语言处理任务量身打造。该数据集历经严格的筛选与去重流程,依托少量标注数据训练得到的打分模型进行质量评估,从海量原始数据中提取高价值的教育相关内容,确保数据的质量与多样性。最终数据集包含约9000万条高质量中文文本条目,总规模约300GB。 ## 筛选流程 在数据筛选阶段,**中文Fineweb Edu**数据集采用与Fineweb-Edu类似的筛选策略,重点关注数据的教育价值与内容质量。具体筛选步骤如下: 1. **教育价值评估**:首先使用csg-wukong-enterprise大语言模型(Large Language Model)对样本的教育价值进行评估,模型将根据内容的相关性与质量给出0至5分的评分。初步筛选阶段,我们选取了约10万条高分样本。 2. **打分模型训练**:利用这10万条样本训练得到一款BERT模型,用于对更大规模的预训练数据集进行打分,以此确保模型能够有效识别高教育价值的内容。 3. **数据筛选**:随后使用训练完成的BERT模型对原始数据进行全量打分,仅保留评分大于4的数据。该流程极大提升了数据集的质量与相关性,保障其在教育领域的适用性。 4. **MinHash去重**:为避免重复内容对模型训练造成负面影响,数据集采用MinHash算法完成去重,该方法可在保留多样化教育内容的同时确保数据唯一性。 <p align="center"> <img width="900px" alt="OpenCSG" src="./Selection Method.png"> </p> ## 原始数据来源 **中文Fineweb Edu**数据集的原始数据来源广泛,涵盖多款主流中文预训练数据集。尽管各数据集在规模与覆盖领域上存在差异,但经过精细筛选与处理后,共同为中文Fineweb Edu数据集奠定了坚实基础。主要数据来源包括: - [CCI2-Data](https://huggingface.co/datasets/BAAI/CCI2-Data):一款经过严格清洗、去重与质量过滤的高质量可靠中文安全数据集。 - [SkyPile-150B](https://huggingface.co/datasets/Skywork/SkyPile-150B):源自中文互联网的1500亿Token大规模数据集,经过复杂的过滤与去重处理。 - [IndustryCorpus](https://huggingface.co/datasets/BAAI/IndustryCorpus):覆盖多行业的中文预训练数据集,包含1TB中文数据,尤其适配行业专属模型训练。 - [Tele-AI](https://huggingface.co/datasets/Tele-AI/TeleChat-PTD):从电信大语言模型TeleChat的预训练语料中提取的高质量大规模中文数据集,包含约2.7亿条经严格过滤与去重的纯中文文本。 - [MAP-CC](https://huggingface.co/datasets/m-a-p/MAP-CC):融合多源高质量数据的超大规模中文预训练语料库,专为中文语言模型训练优化。 <p align="center"> <img width="900px" alt="OpenCSG" src="./Data Sources.png"> </p> 这些多样化的数据来源不仅为**中文Fineweb Edu**数据集提供了丰富的内容基础,还通过整合不同领域与来源的数据,提升了数据集的广泛适用性与全面性。该数据整合方案可确保模型在面对多样化教育场景时,仍能保持优异性能与高质量输出。 <p align="center"> <img width="600px" alt="OpenCSG" src="./data.png"> </p> # 打分模型 我们采用OpenCSG的企业级大语言模型csg-wukong-enterprise作为打分模型,通过设计提示词(Prompt),令该模型为每条预训练样本赋予0至5分的评分,共分为六个等级: 0分:网页无任何教育价值,仅包含无关信息(如广告、宣传物料)。 1分:网页包含少量与教育主题相关的基础信息,即便混杂部分无关或非学术内容(如广告、宣传物料)。 2分:网页包含部分教育相关元素,但与教育标准契合度较低。可能将教育内容与非教育材料混合,对潜在有用主题仅做浅显概述,或写作风格杂乱无章。 3分:网页适用于教育场景,介绍了与学校课程相关的核心概念。内容连贯但不够全面,或包含少量无关信息,类似教科书导论章节或基础教程,适合学习但存在明显局限,例如涉及对中学生而言过于复杂的概念。 4分:网页对高中及以下学段的教育场景具有高度相关性与实用价值,写作风格清晰连贯。类似教科书章节或教程,提供丰富教育内容,包含练习与解答,无关信息极少,且概念对中学生而言难度适中。内容逻辑严谨、重点突出,对结构化学习具有较高价值。 5分:节选内容具备极佳的教育价值,完全适配小学或中学教学。遵循严谨的推理过程,写作风格通俗易懂,对主题提供深刻且全面的解读,无任何非教育性或过度复杂的内容。 我们记录了10万条数据样本及其对应评分,构建了`fineweb_edu_classifier_chinese_data`数据集。以该数据集的评分为标签,我们训练得到一款中文BERT模型`fineweb_edu_classifier_chinese`,可对每条输入文本赋予0至5分的评分。我们计划进一步优化该打分模型,未来OpenCSG算法团队将开源`fineweb_edu_classifier_chinese_data`数据集与`fineweb_edu_classifier_chinese`打分模型,以推动社区发展与协作。该数据集包含经精细标注与评分的教育领域文本数据,可为研究人员与开发者提供高质量训练数据。 # 消融实验 经过精心设计的消融实验,我们旨在对比中文Fineweb Edu数据集与传统中文预训练语料的效果差异。为此,我们从CCI2-Data、SkyPile-150B、TeleChat-PTD、IndustryCorpus与MAP-CC五个数据集中,按与中文Fineweb Edu数据集相同的比例随机抽取样本,构建了对比数据集`chinese-random-select`。 实验中,我们采用一款21亿参数的模型,分别基于两个数据集进行65k步的训练。训练过程中,我们定期保存模型检查点(Checkpoint),并在中文评测基准CEval与CMMLU上开展验证。下图展示了两个数据集在评测任务中的性能趋势。 实验结果清晰表明,基于中文Fineweb Edu训练的模型在两项评测任务中均显著优于基于`chinese-random-select`训练的模型,尤其在训练后期展现出显著优势,印证了中文Fineweb Edu在中文语言任务中的有效性与适配性。此外,该实验结果也凸显了数据集筛选与构建对模型最终性能的关键性影响。 <p align="center"> <img width="900px" alt="experiment" src="./chinese-fineweb-benchmark.png"> </p> 实验结果显示,在训练后期进入第二个epoch且学习率快速下降阶段,基于中文Fineweb Edu训练的模型准确率出现显著提升,而基于随机抽取数据训练的模型准确率则始终处于较低水平。这证明中文Fineweb Edu的高质量数据可显著提升模型训练效果,在相同训练时长下能够更快提升模型能力,节省训练资源。该结果与HuggingFace针对Fineweb Edu开展的数据消融实验结果高度相似。 **我们诚邀该领域的开发者与研究者关注并加入社区,共同推动技术进步。敬请期待数据集的开源发布!** ## 许可协议 使用**中文Fineweb Edu**数据集需遵守OpenCSG社区许可证。该数据集支持商业用途。若您计划将OpenCSG模型或其衍生产品用于商业目的,必须同时遵守OpenCSG社区许可证与Apache 2.0许可证的条款与条件。商业用途需发送邮件至lorraineg@opencsg.com并获得授权。 <a id="chinese"></a> <p> </p> ## 引用格式 @misc{yu2025opencsgchinesecorpusseries, title={OpenCSG Chinese Corpus: A Series of High-quality Chinese Datasets for LLM Training}, author={Yijiong Yu and Ziyun Dai and Zekun Wang and Wei Wang and Ran Chen and Ji Pei}, year={2025}, eprint={2501.08197}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2501.08197}, }
提供机构:
maas
创建时间:
2024-09-09
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
Chinese Fineweb Edu 是一个专为教育领域设计的高质量中文预训练语料数据集,包含约90M条文本,总大小约300GB。它通过严格的筛选流程(如使用打分模型评估教育价值和MinHash去重)从多个主流中文数据源中提取高价值内容,确保数据的教育相关性和多样性。实验验证表明,该数据集在中文语言任务中表现优异,能有效提升模型训练效果,并支持商业用途。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务