pretrain-shards
收藏Hugging Face2026-05-12 更新2026-05-13 收录
下载链接:
https://huggingface.co/datasets/BlackwoodAI/pretrain-shards
下载链接
链接失效反馈官方服务:
资源简介:
Pretrain shards是一个专门为语言模型预训练任务构建的大规模预分词数据集。它包含三个不同领域(代码、文本和数学)的预分词数据分片,每个分片由二进制文件(.bin)和JSON元数据文件(.json)组成:二进制文件以uint32小端字节序存储词元ID序列;JSON文件包含每个文档的长度数组(doc_lengths[])以及相关统计信息。数据按领域组织在code/、text/和math/三个子目录下,每个目录包含多个编号的分片文件(例如shard_000001.bin)。数据集规模庞大,总量超过1万亿个词元。该数据集采用CC BY-NC 4.0许可证,仅限非商业用途,并声明仅供内部研究使用。用户可以通过Hugging Face Hub下载特定领域的数据分片。
Pretrain shards is a large-scale pre-tokenized dataset specifically constructed for language model pre-training tasks. It contains pre-tokenized data shards from three different domains: code, text, and mathematics. Each shard consists of a binary file (.bin) and a corresponding JSON metadata file (.json): the binary file stores token ID sequences in uint32 little-endian byte order, while the JSON file includes an array of document lengths (doc_lengths[]) and related statistical information. The data is organized by domain into three subdirectories: code/, text/, and math/, each containing multiple numbered shard files (e.g., shard_000001.bin). The dataset is extensive, with a total size exceeding 1 trillion tokens. It is licensed under CC BY-NC 4.0, restricted to non-commercial use, and declared for internal research purposes only. Users can download specific domain shards via the Hugging Face Hub.
创建时间:
2026-05-07
原始信息汇总
根据您提供的数据集详情页面信息,以下是该数据集的概述:
数据集概述
数据集名称: Pretrain shards
数据集地址: https://huggingface.co/datasets/BlackwoodAI/pretrain-shards
许可证: CC BY-NC 4.0(仅限非商业用途)
数据集规模: 大于1万亿(>1T tokens)
标签: pretraining, tokenized
数据集内容
该数据集包含已预标记(pre-tokenized)的数据分片(shards),主要用于预训练任务。
文件格式
每个分片包含两种文件类型:
*.bin文件: 采用 uint32 小端序(little-endian)格式的 token ID 数据*.json文件: 每个分片的辅助文件,包含doc_lengths[]数组及其统计信息
数据目录结构
数据集按类别分为三个子目录:
code/ shard_NNNNNN.bin + .json text/ shard_NNNNNN.bin + .json math/ shard_NNNNNN.bin + .json
code/: 代码类数据分片text/: 文本类数据分片math/: 数学类数据分片
使用说明
该数据集仅供内部研究使用。可通过 huggingface_hub 库的 snapshot_download 函数下载指定目录的数据,例如仅下载 code/ 目录下的 .bin 和 .json 文件。
注意事项
- 数据集不提供预览功能(viewer: false)
- 许可证为非商业用途(CC BY-NC 4.0)
搜集汇总
数据集介绍

构建方式
该数据集以分片(shard)形式存储,每个分片包含两种文件:采用小端序uint32编码的二进制token ID文件(.bin)及其伴随的JSON侧边栏文件(.json)。JSON文件详细记录了该分片内的文档长度数组(doc_lengths)及相关统计信息,便于数据索引与验证。数据集按照内容来源划分为 code、text 和 math 三大子目录,每个目录下分布着编号从 NNNNNN 起始的成对分片文件,从而实现了对异构语料的统一结构化存储与管理。
特点
Pretrain-shards 专为大规模预训练设计,其 total token 数量远超1万亿,展现出极高的数据容量。所有数据均已预先完成 tokenization 处理,无需用户额外进行分词操作,可直接用于训练流程。数据集采用 CC BY-NC 4.0 许可协议,仅允许非商业用途,体现出对学术及内部研究场景的侧重。其简洁的二进制格式与丰富的元数据相辅相成,极大提升了数据加载效率与可追溯性,适合资源密集型深度学习任务。
使用方法
用户可通过 Hugging Face Hub 的 snapshot_download 函数高效获取指定子集的分片文件。例如,通过设置 allow_patterns 参数为 ["code/*.bin", "code/*.json"] 即可仅下载 code 部分的二进制数据和元数据,实现按需拉取。随后,可使用 NumPy 或 TensorFlow 等框架将 .bin 文件加载为 uint32 数组,并结合 .json 中的文档长度信息还原原始文档划分。该数据集目前仅限内部研究使用,使用者应严格遵守许可条款。
背景与挑战
背景概述
在大规模语言模型预训练领域,数据预处理与高效存储是决定训练效率与模型性能的关键环节。BlackwoodAI研究团队于近期发布了名为pretrain-shards的数据集,该数据集以预分词(pre-tokenized)碎片(shards)形式呈现,旨在为科研机构的内部预训练研究提供标准化数据基础设施。核心研究问题聚焦于如何通过统一格式(uint32小端序token ID与侧边栏JSON元数据)降低不同来源文本数据的加载与解析开销。数据集按代码、文本、数学三大领域分目录组织,总规模超过1万亿token,其构建思路对预训练数据流水线的优化具有示范意义。
当前挑战
该数据集所解决的领域核心挑战在于:自然语言预训练常因原始语料格式碎片化、分词重复计算及元数据缺失导致数据吞吐量低下,pretrain-shards通过预分词标准化存储直接回应此痛点。构建过程中面临的挑战则包括:从海量异构语料中高效完成跨领域的统一分词;保证uint32编码下长文档边界(doc_lengths)的完整性校验;以及在CC-BY-NC 4.0非商业许可框架下平衡数据开放性与版权合规性。此外,超过1万亿token的碎片化管理对分布式存储与随机访问提出了工程落地层面的严苛要求。
常用场景
经典使用场景
在大规模语言模型的预训练流程中,数据预处理与高效加载始终是制约模型性能的关键瓶颈。pretrain-shards数据集以其经过预分词处理的独特结构,为研究人员提供了一套标准化的预训练数据存储与访问范式。该数据集将海量文本、代码和数学领域数据分割为固定大小的分片(shard),每个分片以紧凑的uint32小端序二进制格式存储token ID,并附有记录文档长度的侧车JSON文件,使得在分布式训练环境下能够实现近乎线性的数据加载与随机访问。研究者无需自行设计繁琐的数据预处理流水线,即可直接利用该数据集进行模型预训练实验,极大降低了算力资源在I/O环节的消耗,提升了训练效率与实验复现的便利性。
衍生相关工作
该数据集的发布催生了多项围绕预训练数据管理技术的研究方向与工具链改进。基于其分片格式,后续工作探索了更高效的数据混入策略,如基于分片元信息(文档长度、领域标签)的动态采样权重调整,以及针对预训练稳定性优化的分片边界对齐技术。此外,部分衍生项目借鉴其侧车JSON结构,扩展了多模态数据的存储方案(将图像特征token与文本token分片索引对齐),推动了多模态大模型预训练数据的标准化进程。在开源社区中,围绕该数据集还涌现出若干加速库,专注于二进制分片的零拷贝读取与跨节点数据编排优化,为后续更大规模模型(如千亿参数级)的分布式预训练提供了可复用的基础设施参考。
数据集最近研究
最新研究方向
在超大规模语言模型预训练的前沿探索中,预训练数据的高效分片与组织已成为关键瓶颈。该数据集以百亿级别token的预分词分片形式,融合代码、文本与数学三种领域,为多模态与多任务预训练提供了结构化数据基础。近年来,随着DeepSeek-V2、Llama 3等模型在推理、数学与编程任务上的突破,精细化的分片数据管理成为平衡计算资源与收敛效率的核心策略。该数据集采用uint32小端序token ID及逐分片边车文档长度统计的设计,既减轻了随机访问的I/O开销,又便于分布式训练中的负载均衡与采样调度,契合当下自监督预训练对数据弹性与模块化复用的迫切需求,对推动开源社区在千亿参数级别模型上实现可控、可复现的预训练流程具有重要实践意义。
以上内容由遇见数据集搜集并总结生成



