anpaurehf/gpt-oss-20b-continuous-decode-traces-1k
收藏Hugging Face2026-04-10 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/anpaurehf/gpt-oss-20b-continuous-decode-traces-1k
下载链接
链接失效反馈官方服务:
资源简介:
---
license: mit
task_categories:
- time-series-classification
- text-generation
language:
- en
tags:
- chipwhisperer
- side-channel
- power-traces
- gpt-oss
- mixture-of-experts
size_categories:
- 1K<n<10K
---
# GPT-OSS 20B Continuous Decode Traces (1k tokens)
This dataset contains a continuous ChipWhisperer Husky Plus power trace captured while running `openai/gpt-oss-20b` in decode mode on an H100. The capture covers 1000 decode steps in one continuous streamed trace.
## Contents
`run/`
- `trace.npy`: raw continuous ADC trace (`float16`)
- `trace_resampled.npy`: post-hoc resampled trace at `16384` points per `10 ms`
- `timeline.json`: timestamped model events with decode/layer/MoE/expert boundaries
- `expert_selections.pt`: routed expert selections per decode step/layer
- `capture_meta.json`: scope/model/capture metadata
- `inputs.pt`: tokenized prompt inputs used to seed generation
- `prompt.txt`: prompt text
`scripts/`
- `capture_gpt_oss_model_trace.py`: continuous streamed capture script
- `extract_layer_expert_segments_from_continuous_trace.py`: cut per-expert windows from a continuous trace
- `extract_moe_blocks_from_continuous_trace.py`: cut per-layer MoE blocks from a continuous trace
- `filter_moe_block_outliers.py`: quantile-based filtering helper for extracted windows
## Capture setup
- Scope: ChipWhisperer Husky Plus
- Capture mode: continuous stream mode
- Target sample rate: `5 MSPS`
- Prompt phase: decode-only capture after warmup
- Model: `openai/gpt-oss-20b`
- Hardware: NVIDIA H100
- Trace covers: `1000` decode steps
## Notes
- `timeline.json` is the alignment source for cropping tokens, layers, MoE blocks, and individual expert windows.
- `trace_resampled.npy` is derived post-hoc from the raw trace for downstream training convenience.
- This repo contains the continuous trace bundle and extraction scripts, not all derived training datasets.
---
许可证:MIT
任务类别:
- 时间序列分类
- 文本生成
语言:
- 英语
标签:
- ChipWhisperer
- 侧信道分析
- 功率轨迹
- GPT-OSS
- 混合专家模型(Mixture-of-Experts, MoE)
样本规模区间:
- 1K<n<10K
---
# GPT-OSS 20B 连续解码轨迹(1000 Token)
本数据集包含一段连续的ChipWhisperer Husky Plus功率轨迹,采集自NVIDIA H100硬件上以解码模式运行`openai/gpt-oss-20b`模型的场景,本次采集的连续流式轨迹覆盖了1000次解码步骤。
## 数据内容
`run/`
- `trace.npy`:原始连续ADC(模数转换器)轨迹(float16精度)
- `trace_resampled.npy`:事后重采样轨迹,每10毫秒对应16384个采样点
- `timeline.json`:带时间戳的模型事件日志,包含解码/层/混合专家模型/专家模块边界信息
- `expert_selections.pt`:每解码步骤、每层级的路由专家选择数据
- `capture_meta.json`:采集设备、模型及采集参数元数据
- `inputs.pt`:用于初始化生成的分词提示输入数据
- `prompt.txt`:原始提示文本
`scripts/`
- `capture_gpt_oss_model_trace.py`:连续流式采集脚本
- `extract_layer_expert_segments_from_continuous_trace.py`:从连续轨迹中截取单专家窗口的工具脚本
- `extract_moe_blocks_from_continuous_trace.py`:从连续轨迹中截取单层级混合专家模块的工具脚本
- `filter_moe_block_outliers.py`:基于分位数的异常值过滤辅助脚本,用于处理已提取的窗口数据
## 采集配置
- 采集设备:ChipWhisperer Husky Plus
- 采集模式:连续流式模式
- 目标采样率:5 MSPS(百万采样每秒)
- 提示阶段:预热完成后仅执行解码的采集流程
- 所用模型:`openai/gpt-oss-20b`
- 运行硬件:NVIDIA H100
- 轨迹覆盖范围:1000次解码步骤
## 补充说明
- `timeline.json`是用于裁剪Token、层级、混合专家模块及单专家窗口的对齐基准源
- `trace_resampled.npy`为原始轨迹的事后重采样版本,旨在简化下游训练流程
- 本仓库仅包含连续轨迹数据包与提取脚本,未包含全部衍生训练数据集
提供机构:
anpaurehf
搜集汇总
数据集介绍

构建方式
本数据集通过ChipWhisperer Husky Plus示波器以连续流式模式采集,目标采样率设为5 MSPS,在NVIDIA H100硬件上运行openai/gpt-oss-20b模型的解码模式。采集过程覆盖了1000个连续解码步骤,生成长时程的原始功率迹线。原始ADC迹线以float16格式存储于trace.npy文件中,并后处理生成了每10毫秒16384个采样点的重采样迹线trace_resampled.npy。同时,通过timeline.json记录了时间戳标注的模型事件,包括解码层、MoE层和专家网络边界,expert_selections.pt则存储了每个解码步骤中各层的路由专家选择结果,形成了对齐精确的完整数据包。
特点
该数据集的核心特点在于其连续流式采集的设计,有别于常见的片段式侧信道迹线,它提供了跨越1000个解码步骤的完整功率消耗序列,使得研究者能够分析模型在长时间序列推理中的能量动态变化。数据集不仅包含原始和重采样的功率迹线,还附带了精细的时间对齐标签,能够精确切割出单个令牌、单个层、甚至单个MoE块的窗口。此外,配套的提取脚本支持从连续迹线中批量截取专家网络级子窗口,并提供了基于分位数的异常值过滤工具,为深度侧信道分析提供了灵活的预处理流水线。
使用方法
使用时,研究者可加载trace.npy或trace_resampled.npy作为功率序列输入,结合timeline.json中的时间戳标签进行对齐,从而提取特定层或特定MoE专家的子序列。对于时间序列分类任务,可将每个解码步或每个令牌的功率片段作为样本,配合expert_selections.pt中的路由标签构建监督数据集。对于文本生成任务,可将连续功率迹线作为条件信号,与prompt.txt中的文本输入配对。推荐使用配套的extract_layer_expert_segments_from_continuous_trace.py等脚本进行数据切割与清洗,再导入深度学习框架进行模型训练。
背景与挑战
背景概述
该数据集名为gpt-oss-20b-continuous-decode-traces-1k,由研究人员于近年创建,旨在捕获并分析大规模混合专家模型在解码阶段的侧信道功耗轨迹。核心研究聚焦于OpenAI的GPT-OSS 20B模型在NVIDIA H100硬件上运行时的物理泄露特征,利用ChipWhisperer Husky Plus示波器以5 MSPS采样率连续采集1000个解码步骤的功耗信号。该数据集为时间序列分类与文本生成任务提供了独特的微观架构洞察,尤其针对混合专家模型中稀疏专家路由的功耗模式,推动了硬件安全与模型逆向工程领域的发展。其构建为后续基于侧信道的模型行为分析、异常检测及节能优化研究奠定了关键基础。
当前挑战
该数据集面临双重挑战。在领域问题层面,需解决大规模混合专家模型在连续解码中功耗轨迹的精确对齐问题,包括准确区分不同解码步骤、Transformer层及专家模块的边界,并提取与计算模式相关的特征以抵御侧信道攻击或实现模型克隆。在构建过程中,挑战包括:1)在高采样率下捕获连续流式数据时,需同步1000个解码步骤间的时序漂移;2)从原始浮点轨迹中后处理重采样至16384点/10毫秒,并确保专家选择窗口切割的语义完整性;3)处理混合专家模型的高动态稀疏路由带来的信噪比变化,需开发分位数过滤等工具消除异常值对建模的干扰。
常用场景
经典使用场景
在侧信道分析与人工智能交叉领域,该数据集凭借其高保真的连续功耗轨迹记录,成为研究混合专家模型(MoE)架构下大语言模型解码阶段功耗泄漏特性的经典材料。研究者可借助该数据集中标记详尽的时间线信息,精确切分每个解码步、网络层及MoE专家的功耗片段,从而构建时序分类任务,探索不同模块在运行时的电磁或功耗指纹差异。这类研究不仅验证了功耗分析在先进神经网络结构上的可行性,也为后续侧信道攻击防御策略的设计提供了基准数据。
实际应用
在实际场景中,该数据集为芯片安全测试工具的开发提供了标准化验证素材。硬件安全工程师可借助其中包含的捕获脚本与提取脚本,自动化地评估不同厂商AI加速器在执行MoE模型时的电磁兼容性与信息泄漏风险。此外,该数据集可用于训练基于深度学习的侧信道攻击检测模型,帮助数据中心运营者实时监控硬件运行状态,防范通过功耗分析窃取模型关键参数或用户输入的潜在威胁,提升云端AI服务的物理安全防护能力。
衍生相关工作
该数据集直接催生了一系列关于MoE大模型侧信道脆弱性的经典工作。研究者可利用其提供的连续轨迹与专家选择记录,复现并改进针对专家路由机制的细粒度功耗分析攻击。更重要的是,数据集中附带的滤波脚本与分块抽取算法已被后续工作采纳为预处理标准流程,例如用于构建更高效的低信噪比功耗信号去噪技术,以及探索在差分功耗分析框架下识别MoE层中敏感操作的最佳实践,从而系统性推进了AI硬件安全这一新兴研究方向的发展。
以上内容由遇见数据集搜集并总结生成



