opencsg/Fineweb-Edu-Chinese-V2.2
收藏Hugging Face2026-02-02 更新2026-02-07 收录
下载链接:
https://hf-mirror.com/datasets/opencsg/Fineweb-Edu-Chinese-V2.2
下载链接
链接失效反馈官方服务:
资源简介:
Chinese Fineweb Edu Dataset V2.2 是一个高质量的中文教育数据集,覆盖从预训练到微调的全流程。它旨在解决中文开源社区中高质量教育语料稀缺的问题,利用 DeepSeek V3.2 的强大文本理解能力,从全网最优质的 0.1% 语料中蒸馏出 143 万条高质量问答对,为社区提供标准化的“后训练”数据集。数据集强调质量至上,拒绝低质和幻觉,严格基于上下文生成问答,确保每一条数据都有确凿的原文依据。
The Chinese Fineweb Edu Dataset V2.2 is a high-quality Chinese educational dataset covering the entire process from pre-training to fine-tuning. It aims to address the scarcity of high-quality educational corpora in the Chinese open-source community, leveraging the powerful text understanding capabilities of DeepSeek V3.2 to distill 1.43 million high-quality Q&A pairs from the top 0.1% of high-quality corpora, providing a standardized post-training dataset for the community. The dataset emphasizes quality over quantity, rejecting low-quality and hallucinated content, and strictly generates Q&A based on context to ensure every piece of data has solid evidence in the original text.
提供机构:
opencsg
搜集汇总
数据集介绍

构建方式
在中文教育大模型领域,高质量语料的稀缺一直是制约模型性能提升的核心瓶颈。为填补这一空白,Chinese Fineweb Edu Dataset V2.2 在 V2.1 版本海量预训练数据的基础上,构建了一套覆盖从预训练到微调全流程的数据集。其构建方式独具匠心:首先,从全网语料中筛选出评分最高的 0.1% 作为种子文本,从源头杜绝低质数据引发的模型坍塌风险;随后,利用 DeepSeek V3.2 强大的文本理解与阅读能力,严格基于这些种子文本的上下文内容,蒸馏生成了 143 万条高质量的问答对。整个合成过程强调事实锚定,确保每条问答均有确凿的原文依据,从而在根本上避免了自由生成数据常见的幻觉问题。
使用方法
研究人员可通过 Hugging Face 的 datasets 库便捷地加载与使用本数据集。对于指令微调任务,推荐加载纯净的问答对版本(split='sft_qa'),该版本仅包含 instruction 与 output 字段,可直接用于标准 SFT 流程。若需验证数据来源或排查模型异常,则可加载包含原始上下文的完整版本(split='sft_context')进行回溯。对于基座模型预训练,建议按分数分层加载 Parquet 格式的语料,例如使用 data_files='pretrain/score_4_5/*.parquet' 获取质量最高的 4-5 分数据,并在训练的退火阶段重点使用,以显著提升模型指令遵循能力与降低困惑度。
背景与挑战
背景概述
在大型语言模型(LLM)的研发浪潮中,中文教育领域的高质量语料资源长期处于稀缺状态,尤其是覆盖从预训练到监督微调(SFT)全流程的数据集更是凤毛麟角。为填补这一空白,OpenCSG社区于2025年初发布了Chinese Fineweb Edu Dataset V2.2,由研究团队基于V2.1版本的海量预训练数据,利用DeepSeek V3.2模型从全网评分最高的0.1%语料中蒸馏出143万条高质量问答对。该数据集旨在解决“高质量后训练数据稀缺”这一制约模型智力跃升的核心瓶颈,通过提供标准化、事实锚定的SFT数据,为中文教育大模型的格式对齐与知识习得提供坚实支撑,其影响力体现在对LIMA假设等前沿理论的实践验证上,为社区树立了质量优先的数据构建范式。
当前挑战
该数据集所面临的挑战首先来自领域问题本身:当前开源SFT数据普遍存在“模型走捷径”的困局,大量低质数据使模型仅习得对话格式而牺牲事实准确性,导致逻辑推理能力缺失;同时,合成数据易引发“模型坍塌”,即在低质量数据上循环训练会丧失创造力和多样性。在构建过程中,团队需严格规避上述风险,坚持“质量至上”原则,仅选取Top 0.1%的优质语料作为种子,并利用DeepSeek V3.2的阅读理解能力确保每个问答对均有确凿原文依据,拒绝幻觉生成。此外,数据版本迭代中需平衡规模与纯度,从V1.0的概念验证到V2.2的全流程覆盖,每一步都需精细控制质量分层与课程学习策略,以应对语料筛选、去重及格式标准化等工程挑战。
常用场景
经典使用场景
在中文教育领域大语言模型的研发中,Fineweb-Edu-Chinese-V2.2 数据集最经典的使用场景是作为从预训练到监督微调(SFT)全流程的高质量语料。其预训练部分按质量分数(如4-5分、3-4分)进行了精细分层,支持课程学习策略,即在模型训练的退火阶段使用高分语料以显著降低困惑度并提升指令遵循能力。SFT部分则提供了143万条由DeepSeek V3.2从顶级语料中蒸馏出的纯问答对,可直接用于LLaMA-Factory等框架进行指令微调,使模型习得基于事实的、结构化的回答范式。这种设计完美契合了从基座模型构建到对齐优化的完整技术链条。
解决学术问题
该数据集精准回应了当前大语言模型研究中“高质量后训练数据稀缺”这一核心瓶颈。它解决了两个关键学术问题:其一,通过仅选取评分最高的0.1%语料作为种子,并利用DeepSeek V3.2严格基于上下文生成问答,有效规避了低质合成数据导致的“模型坍塌”与事实幻觉,为LIMA假设中“数据纯度优于数量”提供了实践佐证。其二,它挑战了模仿学习的虚假承诺,通过提供事实锚定的问答对,使模型在微调时能真正习得逻辑推理与知识提取能力,而非仅模仿对话风格,从而推动了对高效对齐方法的深入探索。
实际应用
在实际应用中,该数据集为构建中文教育领域的大语言模型提供了坚实的数据基石。教育科技公司可直接使用其SFT数据微调模型,以开发智能辅导系统、自动问答平台或个性化学习助手,确保模型回答具备教科书般的准确性与条理性。预训练部分的分层设计则允许研究者在不同训练阶段灵活调配数据,例如在退火阶段集中使用高分语料来优化模型在专业学科(如历史、科学)上的表现。此外,数据集的回溯版本为模型行为的可解释性提供了支持,当输出异常时可追溯至原始文本进行校验,这对于需要高度可靠性的教育产品至关重要。
数据集最近研究
最新研究方向
当前,中文教育领域大语言模型的研究正经历从规模扩张向质量跃升的深刻转型,高质量后训练数据的稀缺成为制约模型智力突破的核心瓶颈。在此背景下,Chinese Fineweb Edu V2.2 数据集应运而生,它聚焦于解决开源社区中“高质量教育语料匮乏”的痛点,通过利用 DeepSeek V3.2 强大的文本理解能力,从全网最优质的 0.1% 语料中蒸馏出 143 万条严格基于原文的问答对,开创性地覆盖了从预训练到监督微调的全流程。该数据集的前沿研究意义在于,它摒弃了传统低质合成数据导致模型“风格模仿、事实矮小”的陷阱,以 LIMA 假设和 AlpaGasus 等研究为理论基石,坚定践行“质量优于数量”的策略,通过事实锚定和拒绝幻觉,为中文教育领域的大模型提供了一套标准化、高纯净的后训练数据集,有望从根本上推动模型在逻辑推理与知识准确性上的实质性突破。
以上内容由遇见数据集搜集并总结生成



