cpu1-ablation-dataset

Hugging Face2026-04-04 更新2026-04-05 收录

下载链接：

https://huggingface.co/datasets/Cukinator/cpu1-ablation-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

CPU-1消融数据集（知识蒸馏）包含从Qwen/Qwen2.5-3B模型中提取的预计算教师对数概率和隐藏状态，基于HuggingFaceFW/fineweb的一个子集（Sample-10BT）构建，专为知识蒸馏到CPU-1字节级架构而设计。数据集包含约850,000个文档，采用BPE到字节的边际化和原始BPE对数概率的蒸馏方法。数据集结构分为两个同步的子数据集：`byte_marginalized/`用于训练字节级MLGRU模型，包含字节补丁、目标、教师概率分布等字段；`bpe_tokenized/`用于BPE级架构的消融研究，包含BPE令牌ID、标签、教师概率等字段。数据集确保100%数学准确的BPE到字节偏移，通过Rust Fast-Tokenizer的内部`offset_mapping`处理UTF-8多字节序列，避免偏移漂移。该数据集与CPU-1消融套件紧密耦合，避免了重复运行繁重的Qwen2.5-3B教师前向传递。

创建时间：

2026-04-04

原始信息汇总

CPU-1 Ablation Dataset (Knowledge Distillation) 数据集概述

基本信息

许可证: mit
任务类别: 文本生成
语言: 英语
数据规模: 100M<n<1B

数据集简介

本数据集包含从 Qwen/Qwen2.5-3B 模型中提取的预计算教师对数概率和隐藏状态，源文本为 HuggingFaceFW/fineweb 的一个子集。该数据集专为知识蒸馏到 CPU-1 字节级架构而设计。

关键构成

源文本: HuggingFaceFW/fineweb (Sample-10BT)
教师模型: Qwen/Qwen2.5-3B
文档数量: 约 850,000 份文档
蒸馏方法: BPE到字节的边际化 & 原始 BPE 逻辑单元。

数据集结构

数据集包含两个同步的子数据集。每个序列长度为 5000 项（BPE 令牌或 4 字节块）。分片恰好包含 50 个序列，以与多处理器流逻辑完美对齐。

1. `byte_marginalized/`

用于训练字节级 MLGRU 模型。

patches [seq_len, 4] uint8: 扁平化列表。4字节输入块。
targets [seq_len, 4] uint8: 扁平化列表。下一个4字节块，偏移量为1。
teacher_probs [seq_len, 256] float32: 扁平化列表。目标块第一个字节的边际化概率分布。
teacher_mask [seq_len] bool: 位置掩码，指示 BPE 边界是否与块对齐，代表有效的教师信号。
teacher_hidden [seq_len, teacher_dim] float32 (可选): 扁平化列表。教师模型的投影内部隐藏状态，用于嵌入对齐损失。
teacher_dim int32 (可选): 投影维度大小（例如 128）。

2. `bpe_tokenized/`

用于 BPE 级架构的消融研究。

input_ids [seq_len] int32: BPE 令牌 ID。
labels [seq_len] int32: 偏移后的 BPE 目标。
teacher_probs_bpe [seq_len, 128] float32: 扁平化列表。前128个预测的原始 P(next_token) 概率。
teacher_ids_bpe [seq_len, 128] int32: 扁平化列表。与前128个预测对应的词汇表 ID。
teacher_mask_bpe [seq_len] bool: 指示教师信号的存在。

架构鲁棒性 (UTF-8)

该数据集保证具有 100% 数学上准确的 BPE 到字节偏移量。提取引擎使用 Rust Fast-Tokenizer 内部的 offset_mapping 来切片直接的 UTF-8 纯字符串字节，而不是从 BPE 令牌重建部分字节（当令牌被分割时，这在多字节 UTF-8 序列如表情符号或汉字上会严重失败）。这消除了偏移漂移，并确保边际化序列完全独立于 BPE 分块模式。

用途

本数据集与 CPU-1 Ablation Suite 紧密耦合。它避免了多次运行繁重的 Qwen2.5-3B 教师前向传递。所有 15 个 CPU-1 消融实验运行都从这个统一的数据集中流式读取，无需重新计算。

搜集汇总

数据集介绍

构建方式

在知识蒸馏研究领域，CPU-1 Ablation Dataset的构建体现了对计算效率与数据一致性的精细考量。该数据集源自HuggingFaceFW/fineweb的Sample-10BT子集，通过Qwen/Qwen2.5-3B教师模型进行前向传播，提取了约85万份文档的教师对数概率与隐藏状态。其核心构建方法采用了BPE到字节的边际化处理与原始BPE对数概率两种蒸馏路径，并利用Rust Fast-Tokenizer的偏移映射技术，直接从UTF-8纯字节序列中切片，确保了在多字节字符处理中偏移量的数学精确性，从而彻底避免了因BPE分词模式导致的字节重构错误。

特点

该数据集的结构设计凸显了其面向架构消融实验的专用特性。它包含字节边际化与BPE分词化两个严格同步的子数据集，每个序列长度固定为5000项，且每个分片精确包含50个序列，以匹配多处理器流式处理逻辑。字节级子集提供了四字节补丁的输入与目标，并附有教师模型对目标首字节的边际化概率分布及隐藏状态；BPE级子集则保留了原始BPE词符的输入标识与教师模型的前128个预测概率及对应词符ID。这种双轨设计保障了模型在字节级与词符级表示学习上的可对照性，为架构鲁棒性评估提供了坚实基础。

使用方法

在具体应用层面，该数据集紧密服务于CPU-1消融实验套件，旨在避免对大型教师模型的重复前向计算。研究者可直接加载相应的数据分片，字节边际化子集用于训练字节级MLGRU模型，通过教师概率分布与隐藏状态对齐损失优化模型参数；BPE分词化子集则支持在BPE级架构上进行消融分析，利用教师提供的Top-K预测信息引导模型学习。数据集流式读取的设计使得多达15项实验运行能够从同一预处理数据源中高效获取输入，显著提升了大规模对比研究的实验效率与可复现性。

背景与挑战

背景概述

在知识蒸馏领域，高效地将大型语言模型的复杂能力迁移至轻量化架构是当前研究的关键方向。CPU-1 Ablation Dataset由相关研究团队于近期构建，其核心目标在于为CPU-1字节级架构的蒸馏与消融实验提供预计算的教师模型信号。该数据集基于HuggingFaceFW/fineweb的大规模文本样本，利用Qwen/Qwen2.5-3B作为教师模型，精确提取了词元概率与隐藏状态。通过规避重复执行繁重的模型前向传播，该资源显著提升了实验效率，并为探索字节级与BPE级模型表示的鲁棒性对比奠定了坚实基础，对轻量级语言模型的高效训练方法研究具有积极的推动作用。

当前挑战

该数据集旨在应对知识蒸馏中模型能力迁移的固有挑战，特别是在将基于BPE分词的大型模型知识适配到原生字节级序列建模架构时，如何保持概率分布与表示对齐的精确性是一大难点。在构建过程中，技术挑战尤为突出：确保BPE词元与原始UTF-8字节序列之间的偏移映射达到数学上的完全准确至关重要，任何细微的错位都会在多字节字符（如表情符号或汉字）处理时导致灾难性失败。为此，构建过程依赖底层tokenizer的精确偏移映射来直接切片原始字节，从而彻底消除了因BPE分块模式引起的偏移漂移，保障了后续蒸馏信号的高度可靠性。

常用场景

经典使用场景

在知识蒸馏领域，该数据集为研究高效模型压缩提供了标准化的实验基础。其核心应用场景在于训练字节级多门控循环单元（MLGRU）模型，通过预计算的教师模型对数概率和隐藏状态，将大型语言模型Qwen2.5-3B的知识迁移至轻量级CPU-1架构。这种设计使得研究者能够专注于模型架构的对比与优化，无需重复执行耗时的前向传播计算，从而加速迭代过程并确保实验的一致性。

实际应用

在实际部署中，该数据集支持资源受限环境下的高效语言模型开发。例如，在边缘设备或移动终端上，通过利用预蒸馏的教师知识，能够训练出参数量小、推理速度快的字节级模型，适用于实时文本生成、自动补全等场景。其严格对齐的数据结构确保了模型在多样化文本（包括表情符号、汉字等多字节字符）上的鲁棒性，提升了实际应用的可靠性。

衍生相关工作

围绕该数据集，衍生出了一系列针对CPU-1架构的消融实验研究。这些工作深入比较了字节级与BPE级表示在知识蒸馏中的效果差异，探索了隐藏状态对齐等损失函数的设计。同时，基于其提供的标准化数据流水线，后续研究能够复现并扩展轻量级语言模型的训练策略，促进了模型压缩与高效推理领域的算法创新与基准建立。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集