4D4T
收藏Hugging Face2026-05-06 更新2026-05-07 收录
下载链接:
https://huggingface.co/datasets/SOMIL366/4D4T
下载链接
链接失效反馈官方服务:
资源简介:
4D4T(4-Domain Training Dataset)是一个经过精心整理的约60GB语料库,包含四个平衡领域的训练数据,专为小型语言模型训练而设计。数据集分为数学(Math)、历史(History)、科学(Science)和通用(General)四个领域,每个领域的数据来源分别为:数学数据来自openbmb/UltraData-Math,历史数据来自allenai/c4(realnewslike),科学数据来自sentence-transformers/s2orc,通用数据来自HuggingFaceFW/fineweb-edu。数据以JSONL.GZ格式存储,支持文本生成(text-generation)和掩码填充(fill-mask)任务。使用MIT许可证发布,可通过HuggingFace的datasets库直接加载。
创建时间:
2026-05-05
原始信息汇总
数据集概述:4D4T (4-Domain Training Dataset)
4D4T 是一个用于训练小型语言模型的多领域文本数据集,总容量约为 60GB,由四个均衡分布的领域构成。
基本信息
- 语言: 英语 (en)
- 许可证: MIT
- 任务类别: 文本生成 (text-generation)、掩码填充 (fill-mask)
- 数据集名称: 4_Dataset_4_Training
领域构成
| 领域 | 数据来源 | 数据文件路径 |
|---|---|---|
| 数学 (Math) | openbmb/UltraData-Math |
data/math/math_train_shard_*.jsonl.gz |
| 历史 (History) | allenai/c4 (realnewslike 子集) |
data/history_news/history_train_shard_*.jsonl.gz |
| 科学 (Science) | sentence-transformers/s2orc |
data/science/science_train_shard_*.jsonl.gz |
| 通用 (General) | HuggingFaceFW/fineweb-edu |
data/general/general_train_shard_*.jsonl.gz |
数据集配置与划分
数据集包含四个子配置(config),每个配置对应一个领域,仅提供 训练集 (train) 划分:
- math: 训练数据文件
data/math/math_train_shard_*.jsonl.gz - general: 训练数据文件
data/general/general_train_shard_*.jsonl.gz - history: 训练数据文件
data/history_news/history_train_shard_*.jsonl.gz - science: 训练数据文件
data/science/science_train_shard_*.jsonl.gz
使用方式
可通过 datasets 库按领域名称加载数据,支持流式加载:
python
from datasets import load_dataset
以科学领域为例,加载训练集并使用流式模式
ds = load_dataset("SOMIL366/4D4T", "science", split="train", streaming=True) print(next(iter(ds))["text"])
搜集汇总
数据集介绍

构建方式
4D4T数据集是一个专为小型语言模型训练而精心构建的多领域语料库,总规模约达60GB。为确保数据分布的均衡性,该数据集从四个截然不同的知识领域系统性地采集文本资源:数学领域源自'openbmb/UltraData-Math',历史领域取材于'allenai/c4'中的真实新闻子集,科学领域来自'sentence-transformers/s2orc',而通用领域则基于'HuggingFaceFW/fineweb-edu'。每个领域的原始数据被统一转换为JSONL格式并经gzip压缩,最终以分片文件形式存储,分别置于math、history_news、science和general子目录下。这种模块化的构建策略,使得各领域数据不仅规模对等,且便于独立管理与迭代。
特点
该数据集的核心特色在于其严谨的领域平衡性与结构化设计。四类知识领域——数学、历史、科学及通用文本——被赋予同等权重,避免了单一领域数据过载对模型泛化能力的负面影响,尤其适合需要跨领域理解的小型语言模型微调。此外,数据来源均经过精心筛选,例如数学数据源自专业教育语料,科学文本取自学术论文摘要,历史新闻则覆盖实时事件,确保了内容的权威性与多样性。数据集以分片压缩格式发布,单条样本保留原始文本字段,结构简洁高效,为后续的特征提取与定制化处理提供了便利。
使用方法
使用4D4T数据集时,开发者可通过HuggingFace的datasets库以流式加载方式高效访问。首先调用'load_dataset'函数并指定领域配置名称,如'math'、'history'、'science'或'general',即可获取对应领域的训练分片。设置'streaming=True'参数可避免一次性将全部60GB数据加载至内存,特别适合资源受限的微型模型训练场景。每个样本均以字典形式返回,核心字段为'text',直接存储原始文本内容,便于即拿即用。对于需要自定义采样的场景,可结合分片路径模式——例如'data/math/math_train_shard_*.jsonl.gz'——进行灵活的数据加载与预处理。
背景与挑战
背景概述
4D4T数据集由研究者SOMIL于2024年创建,旨在为小型语言模型的预训练提供高质量、多领域的数据资源。该数据集从开源社区中精选了数学、历史、科学和通用四个均衡领域的语料,分别源自UltraData-Math、C4、S2ORC和FineWeb-Edu等权威数据源,总计约60GB。其核心研究问题在于探索如何在有限的计算资源下,通过领域平衡的语料提升小模型的泛化能力与知识覆盖度。作为面向轻量化语言模型训练的基础资源,4D4T为资源受限场景下的自然语言处理研究提供了重要的数据支撑。
当前挑战
该数据集主要挑战包括:1) 领域语料的均衡性与代表性,数学与科学领域需要高度专业化的数据,而历史和通用领域则需覆盖多元视角,如何从异构数据源中提取并保持各领域内容的质量与比例一致是一大难题;2) 数据清洗与去重,从多个大规模语料库中整合时需处理噪声、冗余和格式统一问题,以避免对模型训练产生偏差;3) 小模型训练的适配性,如何在有限参数量下充分利用60GB数据提升知识记忆与推理能力,对数据分布和采样策略提出了更高要求。
常用场景
经典使用场景
在语言模型预训练的广阔领域中,数据质量与多样性的平衡始终是研究焦点。4D4T数据集以其精心设计的四领域均衡架构,为小型语言模型的训练提供了理想的数据基石。研究者可便捷地通过HuggingFace接口按需加载数学、历史、科学或通用领域的子集,从而在可控的数据环境下探索领域特异性对模型表现的影响。该数据集最经典的使用场景在于支撑多领域知识蒸馏与迁移学习的实验设计,使得在资源受限条件下训练出兼具广度与深度的语言模型成为可能。
衍生相关工作
自4D4T数据集发布以来,其四领域均衡的设计理念已催生了一系列相关研究工作。部分学者借鉴其领域划分框架,进一步引入了跨领域对比学习目标以增强模型的泛化能力。另有一些团队基于该数据集构建了领域自适应基准评测体系,推动了小型语言模型在数学证明步骤验证与历史事件因果推断等细粒度任务上的性能突破。该数据集还激发了关于数据混合比例对模型涌现能力影响机制的深入探讨,为后续数据治理策略的优化提供了实证参考。
数据集最近研究
最新研究方向
4D4T数据集代表了当前小型语言模型训练数据构建的前沿探索方向,通过精心平衡数学、历史、科学和通用四大知识领域,解决了传统训练数据分布不均导致的模型知识偏差问题。这一约60GB的精细语料库整合了来自UltraData-Math、C4、s2orc及fineweb-edu等优质数据源,直接回应了行业对高效、领域均衡小语言模型的迫切需求。其设计理念与近期大模型领域倡导的‘数据质量优先于规模’趋势高度契合,特别适用于资源受限场景下的模型微调与持续预训练,为推动开放、多样化的语言模型生态建设提供了关键基础设施。
以上内容由遇见数据集搜集并总结生成



