olmix
收藏Hugging Face2026-02-13 更新2026-02-15 收录
下载链接:
https://huggingface.co/datasets/allenai/olmix
下载链接
链接失效反馈官方服务:
资源简介:
Olmix Swarm Datasets 是一个用于语言模型开发中数据混合优化的代理运行数据集。该数据集包含32个群组(swarm),分为四个主要类别:主群组(DCLM swarm)、研究问题研究(RQ3和RQ6)、混合重用(mixture reuse)以及理论验证实验。每个群组包含ratios.csv(域混合比例)、metrics.csv(评估指标)和meta.json(元数据)文件。数据集主要用于通过Olmix框架进行数据混合优化,支持多种实际应用场景和理论研究。数据集规模较小(n<1K),适用于语言模型预训练、混合优化等任务。数据集结构清晰,每个群组包含详细的字段描述,如swarm_id、description、category、notes等,便于使用和分析。
提供机构:
Allen Institute for AI
创建时间:
2026-02-12
原始信息汇总
Olmix Swarm Datasets 数据集概述
数据集基本信息
- 数据集名称: Olmix Swarm Datasets
- 发布机构: Allen Institute for AI (AllenAI)
- 许可证: Apache 2.0 License
- 主要用途: 用于数据混合(data mixing)的代理运行数据,旨在优化语言模型预训练过程中的领域混合比例。
- 相关论文: Olmix: A Framework for Data Mixing Throughout LM Development
- 代码仓库: https://github.com/allenai/olmix
数据集内容与规模
- 总规模: 包含 32 个“群”(swarms)。
- 数据类别: 组织为四个主要类别:
- 主群(Main Swarm): 1 个群,即
dclm_swarm/。 - 研究问题研究(Research Question Studies): 6 个群,位于
study/目录下。 - 混合重用(Mixture Reuse): 25 个群,位于
mixture_reuse/目录下。
- 主群(Main Swarm): 1 个群,即
- 每个群包含的文件:
ratios.csv: 包含不同代理训练运行的领域混合比例。metrics.csv: 包含在不同下游任务上的对应评估指标。meta.json: 包含完整的元数据。
数据集结构详情
1. 主群 (dclm_swarm/)
- DCLM 主群: 包含 128 个代理运行,覆盖 24 个 DCLM 主题(稀疏表示),在论文中全程使用。
2. 研究问题研究 (study/)
- RQ3: 密集与稀疏对比研究(5 个群)
- DCLM 密集群: 128 个代理运行,覆盖 24 个 DCLM 主题(密集表示)。
- 源级别稀疏群: 64 个代理运行,覆盖 7 个数据源(稀疏表示)。
- 源级别密集群: 64 个代理运行,覆盖 7 个数据源(密集表示)。
- DCLM 群(强先验): 128 个代理运行,使用强的狄利克雷先验。
- DCLM 群(弱先验): 128 个代理运行,使用弱的狄利克雷先验。
- RQ6: 约束优化研究(1 个群)
- DCLM 约束群: 128 个代理运行,设定请求令牌数 R=6T,重复因子 k=4。
3. 混合重用 (mixture_reuse/)
- 真实世界 - 完全重用(12 个群)
- 实验将整个先前混合作为一个虚拟域重用。
- 包含更新 1(添加 Stack-Edu)、更新 2(添加更多源)、更新 3(修订 PDFs)、更新 5(划分 PDFs),各 3 个随机种子。
- 真实世界 - 部分重用(6 个群)
- 实验仅重用部分混合,受影响的域被重新计算。
- 包含更新 1(添加 Stack-Edu,重新计算软件开发域)和更新 5(划分 PDFs,重新计算混合),各 3 个随机种子。
- 真实世界 - 群重用(1 个群)
- 更新 4(移除 AlgebraicStack): 移除 AlgebraicStack 后的群与最终域集兼容。
- 理论验证(6 个群)
- 用于验证混合重用理论的实验,包括 DCLM+StackEdu、DCLM+PDFs 的基线群,以及弱混合重用间隙、中间混合重用间隙的相关实验群。
数据字段说明
每个数据示例包含以下字段:
| 字段名 | 类型 | 描述 |
|---|---|---|
swarm_id |
string | 唯一的群标识符。 |
description |
string | 人类可读的群描述。 |
category |
string | 类别/文件夹路径。 |
notes |
string | 群配置的详细描述。 |
dataset_path |
string | 数据集的相对路径。 |
ratios |
string | 领域混合比例的 JSON 字符串(pandas DataFrame)。 |
metrics |
string | 评估指标的 JSON 字符串(pandas DataFrame)。 |
num_runs |
int | 代理训练运行的数量。 |
num_domains |
int | 混合中的领域数量。 |
num_metrics |
int | 评估指标的数量。 |
使用方法
- 主要用例(推荐): 直接下载
ratios.csv和metrics.csv文件,与 Olmix GitHub 仓库 中的工具配合使用,进行数据混合优化。 - 替代方法: 使用 HuggingFace Datasets 库加载整个数据集集合,便于探索。
引用信息
如果使用此数据集,请引用: bibtex @article{chen2026olmix, title={Olmix: A Framework for Data Mixing Throughout LM Development}, author={Chen, Mayee F and Murray, Tyler and Heineman, David and Jordan, Matt and Hajishirzi, Hannaneh and Re, Christopher and Soldaini, Luca and Lo, Kyle}, journal={arXiv preprint arXiv:2602.12237}, year={2026} }
搜集汇总
数据集介绍

构建方式
在语言模型预训练领域,数据混合策略的优化是提升模型性能的关键环节。Olmix数据集的构建依托于Olmix框架,通过代理训练运行的方式系统性地探索不同领域混合比例对下游任务评估指标的影响。该数据集囊括了32个蜂群实验,每个蜂群均包含详尽的领域混合比例数据、评估指标及元数据,这些实验被精心组织为主蜂群、研究问题探究、混合重用等类别,旨在为数据混合优化提供实证基础。
使用方法
该数据集的主要应用场景是与Olmix框架结合,用于提出或优化数据混合方案。用户可直接下载各蜂群的ratios.csv与metrics.csv文件,并参照Olmix GitHub仓库中的配置示例进行集成分析。此外,也可通过HuggingFace Datasets库加载整个数据集集合,便于进行探索性数据分析,例如按类别筛选蜂群或利用Python进行领域分布可视化与指标相关性研究,从而支持数据混合策略的实证评估与算法开发。
背景与挑战
背景概述
在大型语言模型预训练领域,数据混合策略的优化是提升模型性能与效率的核心环节。Olmix数据集由AllenAI研究院于2026年发布,其核心研究聚焦于探索不同领域数据混合比例对下游任务评估指标的影响。该数据集通过系统性的代理训练实验,构建了包含32个集群的丰富实验数据,旨在为数据混合优化提供实证基础,推动语言模型开发过程中数据配比决策的科学化与自动化。
当前挑战
Olmix数据集致力于解决语言模型预训练中数据混合比例优化的复杂问题,其挑战在于如何从高维、稀疏的混合空间中高效寻找到能够最大化下游任务性能的最优配比。在构建过程中,研究团队需设计严谨的实验以覆盖多样化的领域组合与先验设置,并确保代理训练与评估流程的一致性,同时处理大规模实验数据的管理与验证,以保障数据集的可靠性与可复现性。
常用场景
经典使用场景
在语言模型预训练领域,数据混合策略的优化是提升模型性能的关键环节。Olmix数据集通过提供32个代理训练群集,每个群集包含不同领域混合比例下的评估指标,为研究者提供了一个系统性的实验平台。该数据集最经典的使用场景是结合Olmix框架,利用其提供的ratios.csv和metrics.csv文件,通过优化算法自动探索和确定最优的数据混合比例,从而指导大规模语言模型在预训练阶段的数据配比决策。
解决学术问题
该数据集有效解决了语言模型预训练中数据混合优化的核心学术问题。传统方法往往依赖经验或启发式规则进行数据配比,缺乏理论指导和系统评估。Olmix数据集通过结构化记录不同混合比例下的多任务评估结果,为研究稠密与稀疏表示、先验分布影响、约束优化以及混合重用理论等关键研究问题提供了实证基础。其意义在于将数据混合从经验实践提升为可量化、可复现的科学研究,推动了预训练数据工程向更精细化、自动化方向发展。
实际应用
在实际应用层面,Olmix数据集为语言模型开发团队提供了数据混合策略的决策支持。例如,当团队需要整合新的数据源(如Stack-Edu或PDF文档)到现有训练语料时,可以利用数据集中的“混合重用”群集,评估是完整重用原有混合作为虚拟领域,还是部分重新计算更为高效。这种基于历史代理运行数据的分析,能够显著降低全规模训练的实验成本,加速模型迭代更新,适用于持续学习和领域自适应等现实场景。
数据集最近研究
最新研究方向
在语言模型预训练领域,数据混合策略的优化已成为提升模型性能的关键前沿。Olmix数据集通过系统化的代理训练运行,为数据混合比例的优化提供了实证基础,其研究聚焦于稀疏与稠密混合的对比、先验分布的影响以及约束条件下的优化问题。这些探索不仅验证了混合重用理论在实际更新场景中的有效性,还为动态数据环境下的模型持续学习提供了方法论支持。该数据集推动了数据混合从经验性尝试向科学化、可复现框架的转变,对构建高效、可扩展的大规模语言模型训练流程具有深远意义。
以上内容由遇见数据集搜集并总结生成



