DeMix_Corpora

Hugging Face2026-02-04 更新2026-02-05 收录

下载链接：

https://huggingface.co/datasets/lucius1022/DeMix_Corpora

下载链接

链接失效反馈

官方服务：

资源简介：

DeMix Corpora 是一个全面、高质量、大规模且经过精心混合的资源，可直接用于预训练。该数据集包含15T原始令牌和22T混合令牌，旨在解决现有通用语料库缺乏领域特定强度，而专业语料库又不适用于通用预训练的问题。DeMix Corpora 通过提供经过验证的最佳数据混合比例，平衡了通用语言能力和在复杂任务（如数学推理和代码生成）上的强大性能。数据集结构包括三个部分：用于复现结果的组件模型和参考模型（DeMix_reproduce）、纯数据集（pure_dataset）以及预训练三个阶段的混合样本（mixture_sample）。数据集的创建过程包括从异构开源资源中收集数据，经过全局去重、模糊去重、困惑度过滤、FastText 过滤和中文通用领域过滤等多个步骤，最终按三个阶段进行混合，其中高质量数学和代码数据的比例逐渐增加。

创建时间：

2026-02-01

搜集汇总

数据集介绍

构建方式

在大型语言模型预训练领域，数据混合策略对模型性能具有决定性影响。DeMix Corpora的构建始于从异构开源资源中广泛收集数据，涵盖通用语料、数学数据集、代码库及多语言文本。随后实施了一套严谨的数据清洗流程，包括全局精确去重与基于MinHash的模糊去重，以消除冗余内容。通过轻量级评分模型进行困惑度过滤，并利用基于FastText的质量分类器筛选语义丰富的高质量文本。针对中文通用领域，还采用了基于语言完整性与信息密度的质量评估框架进行分级与上采样。最终，数据被组织成三个预训练阶段，其中高质量数学与代码数据的比例逐阶段递增，形成了总计22T标记的混合语料。

使用方法

DeMix Corpora旨在为大型语言模型的全阶段预训练提供即用型资源。研究人员可直接使用其提供的已混合样本数据集，该数据集已划分为三个预训练阶段，分别包含约14T、6T和2T标记，用户可按顺序加载用于不同训练周期。对于希望自定义混合比例的研究，可利用其公开的纯数据集组件进行灵活重组。此外，数据集附带的复现包包含了相关组件模型与参考模型，便于用户验证DeMix方法的效果或在此基础上开展进一步的模型合并研究。这种即用与可定制相结合的方式，为探索数据混合策略对模型能力的影响提供了高效且可靠的基础设施。

背景与挑战

背景概述

在大型语言模型预训练领域，数据混合策略对于模型性能的平衡与优化至关重要。DeMix Corpora由研究团队于近期构建，旨在填补领域专用预训练数据与已验证混合比例基准语料库之间的空白。该数据集规模宏大，包含约22T混合词元，其核心研究问题聚焦于如何通过解耦搜索与训练过程，为模型预训练提供可直接复用、经过验证的优化数据混合方案。通过整合通用领域、数学、代码及多语言数据，并实施严格的数据清洗与质量过滤流程，DeMix Corpora为促进模型在通用语言能力与复杂任务（如数学推理和代码生成）性能间的均衡发展提供了关键资源，对推动高效、可扩展的预训练方法研究具有显著影响力。

当前挑战

DeMix Corpora致力于解决大型语言模型预训练中数据混合优化的核心挑战，即如何在单一语料库中有效平衡通用语言建模与领域专用（如数学、代码）任务性能。现有通用语料库往往缺乏领域强度，而专用语料库又难以直接用于通用预训练，该数据集通过提供已验证的混合比例直接应对这一难题。在构建过程中，挑战主要体现在处理异构开源数据的质量一致性上，包括实施全局与模糊去重以消除冗余、利用轻量级模型进行基于困惑度的过滤、采用质量分类器区分语义内容与噪声，以及针对中文通用领域设计基于语言完整性与信息密度的质量分级框架。此外，分阶段混合策略要求精确控制高质量数学与代码数据的比例递增，以确保预训练过程的渐进性与稳定性。

常用场景

经典使用场景

在大规模语言模型预训练领域，DeMix Corpora作为一项高质量、大规模且经过精心混合的数据资源，其经典使用场景主要集中于模型的全阶段预训练过程。该数据集通过整合通用领域文本、数学推理数据、代码集合及多语言内容，构建了包含22T混合标记的语料库，为研究者提供了可直接用于模型训练的基准化数据混合物。其分阶段预训练设计，使得模型能够从通用语言能力逐步过渡到复杂任务的专业性能优化，有效支撑了从基础到高级的语言模型开发。

解决学术问题

DeMix Corpora致力于解决当前预训练数据领域的一个核心学术问题：即缺乏经过验证的、可直接重用的大规模数据混合基准。现有通用语料往往缺乏领域特异性，而专业语料又难以直接应用于通用预训练。该数据集通过严格的去重、困惑度过滤及质量分类流程，提供了经过优化的数据混合比例，平衡了通用语言能力与数学推理、代码生成等复杂任务的性能需求，为数据混合策略的标准化与可复现性研究奠定了坚实基础。

实际应用

在实际应用层面，DeMix Corpora可直接服务于各类大规模语言模型的研发与部署。其分阶段混合策略尤其适用于需要兼顾通用对话能力与专业领域性能的模型训练，例如教育辅助系统中的数学解题引擎、智能编程助手或多语言信息处理平台。通过提供已验证的高质量数据混合物，该数据集能够显著降低模型预训练的数据准备成本与调优难度，加速高性能语言模型在产业场景中的落地与应用。

数据集最近研究