DeMix Corpora

github2026-02-11 更新2026-02-18 收录

下载链接：

https://github.com/Lucius-lsr/DeMix

下载链接

链接失效反馈

官方服务：

资源简介：

预训练数据即将发布。

The pre-training data will be released imminently.

创建时间：

2026-01-31

原始信息汇总

DeMix数据集概述

数据集基本信息

数据集名称：DeMix Corpora
发布平台：Hugging Face
数据集地址：https://huggingface.co/datasets/lucius1022/DeMix_Corpora
关联论文：Decouple Searching from Training: Scaling Data Mixing via Model Merging for Large Language Model Pre-training
代码仓库：https://github.com/Lucius-lsr/DeMix

数据集内容

预训练数据：即将发布。
包含模型：
- component_models：包含所有7个已训练的组件模型，其训练数据规模（token预算）分别为2B、10B、30B和50B。
- reference_models：包含来自采样混合的16个参考模型。
- reference_models/sampled_mixture.json：包含与16个参考模型对应的16种数据混合方案。

数据集用途与关联方法

核心方法：DeMix是一种通过模型合并来扩展数据混合搜索、用于大型语言模型预训练的方法。
主要流程：
1. 准备候选数据集。
2. 为每个候选数据集训练独立的组件模型。
3. 采样候选的数据混合方案。
4. 合并组件模型。
5. 对合并后的模型进行基准测试。
6. 训练预测器并迭代优化，直至获得最终最优数据混合方案。

数据获取与使用

下载说明：可从Hugging Face数据集地址下载全部模型用于复现，无需准备原始数据或从头训练。
评估工具：建议使用OpenCompass对合并模型和参考模型进行评估。
评估基准：
- 通用能力：ARC-E, HellaSwag, PIQA, SIQA, WinoGrande
- 代码能力：MBPP, HumanEval
- 数学能力：GSM8K, MATH

搜集汇总

数据集介绍

构建方式

在大型语言模型预训练领域，数据混合策略的优化是提升模型性能的关键。DeMix Corpora的构建采用了一种创新的解耦方法，将数据混合搜索过程从繁重的模型训练中分离出来。具体而言，该数据集首先为每个候选数据源独立训练一个组件模型，随后通过模型合并技术模拟不同数据混合比例下的模型表现。这一过程避免了传统方法中为评估每种混合比例而重复训练完整模型的巨大计算开销，从而实现了高效的数据混合策略探索。

使用方法

研究人员可通过Hugging Face平台获取DeMix Corpora数据集，其中包含预训练的组件模型和参考模型。使用该数据集的核心流程是模型合并与评估：用户首先根据指定的数据混合比例生成合并配置，随后执行脚本将对应的组件模型合并为代理模型。接着，利用OpenCompass等评估框架对代理模型在通用知识、代码和数学等多个基准任务上进行性能评测。通过比较代理模型与参考模型的性能排名一致性，可以高效地筛选出最优的数据混合方案，从而指导最终大型语言模型的预训练数据配比。

背景与挑战

背景概述

在大型语言模型预训练领域，数据混合策略的优化是提升模型性能的关键环节。DeMix Corpora数据集由研究人员于2024年提出，旨在通过模型合并技术，将数据搜索过程与训练过程解耦，从而高效探索最优的数据混合比例。该数据集的核心研究问题聚焦于如何在不进行昂贵全量训练的情况下，通过合并针对不同数据源训练的组件模型，来预测并验证不同数据混合方案对模型在通用、代码和数学等多项基准任务上的影响。这一创新方法为大规模预训练数据的高效配置提供了新的研究范式，有望显著降低实验成本并加速模型开发进程。

当前挑战

DeMix Corpora所应对的领域挑战在于，传统数据混合方法通常需要为每种混合方案进行完整的模型训练，计算开销巨大，难以系统性地探索高维混合空间。该数据集构建过程中的挑战则体现在多个方面：首先，需要为每个候选数据源独立训练高质量的组件模型，这要求协调多样的数据预处理流程并保证各组件模型具备可合并的兼容性；其次，在采样混合方案与合并模型时，需设计有效的策略以维持模型性能的稳定性和可预测性；最后，评估环节需确保在多项异构基准上的评测结果能够准确反映数据混合的效用，从而可靠地指导最优混合方案的选取。

常用场景

经典使用场景

在大型语言模型预训练领域，数据混合策略的优化是提升模型性能的关键环节。DeMix Corpora通过解耦搜索与训练过程，为研究者提供了一个高效探索数据混合比例的框架。其经典使用场景在于，利用组件模型的合并来模拟不同数据混合配置下的性能，从而在无需重复训练的情况下，快速评估多种数据混合方案，显著降低了计算成本与时间开销。

解决学术问题

该数据集主要解决了数据混合搜索中计算资源消耗巨大的学术难题。传统方法需为每种混合比例重新训练模型，导致效率低下。DeMix Corpora通过模型合并技术，将数据混合问题转化为模型参数融合问题，使得研究者能够以低成本探索最优数据配比，推动了高效预训练方法的发展，并为数据选择理论提供了新的实践路径。

实际应用

在实际应用中，DeMix Corpora可广泛应用于大规模语言模型的预训练数据优化。例如，在构建多领域语料库时，机构可利用该框架快速确定不同领域数据的最佳混合比例，以提升模型在通用、代码和数学等任务上的综合表现。这不仅加速了模型开发周期，也为资源受限的研究团队提供了可行的数据策略工具。

数据集最近研究