qwen3-32b-token-similarity-activation-triplets
收藏Qwen3-32B Token-Similarity Activation Triplets 数据集概述
基本信息
- 数据集名称:Qwen3-32B Token-Similarity Activation Triplets
- 许可协议:other
- 任务类别:feature-extraction, reinforcement-learning
- 标签:activation-as-view, world-model, qwen3, token-similarity, representation-learning, jepa
- 数据规模:10K<n<100K
- 数据量:50,000 个三元组
数据集内容
该数据集包含从 Qwen/Qwen3-32B 模型的内部残差激活生成的 50,000 个转移三元组,并编码为类似图像的 token-token 相似性图,用于 Activation-as-View 或世界模型实验。
文件结构
data/qwen3_32b_train_token_similarity.h5:包含 50,000 个三元组的 HDF5 数据集文件。reports/generation_report.json:Modal 作业返回的生成摘要。reports/validation_report.json:本地 HDF5 完整性及统计报告。reports/dynamics_baselines.json:转移任务的恒等/均值/差值基线。
数据模式
HDF5 文件包含以下键:
| 键名 | 形状 | 数据类型 | 描述 |
|---|---|---|---|
obs |
[50000, 3, 64, 64] |
float32 |
步骤 t 的观测值,编码为来自层 [10, 20, 30] 的 token-token 相似性图。 |
actions |
[50000, 256] |
float32 |
生成 token 嵌入的 PCA-256 投影。 |
next_obs |
[50000, 3, 64, 64] |
float32 |
步骤 t+1 的观测值。 |
categories |
[50000] |
bytes/string | 提示类别。 |
source_ids |
[50000] |
bytes/string | 提示来源。 |
prompt_ids |
[50000] |
bytes/string | 提示标识符。 |
step_ids |
[50000] |
int | 提示内的生成步骤。 |
重要 HDF5 属性:
model = Qwen/Qwen3-32B encoding = token_similarity_v1 layers = [10, 20, 30] action_encoding = embedding_pca256 obs_shape = [3, 64, 64] split = train
编码方法
token_similarity_v1 编码针对每个选定的 Transformer 层计算:
- 收集残差激活
[seq_len, hidden_dim]。 - 对每个 token 向量进行中心化。
- 对 token 向量进行 L2 归一化。
- 计算余弦 token-token 相似性
z @ z.T。 - 将相似性从
[-1, 1]映射到[0, 1]。 - 调整大小为
64 x 64。 - 将层
[10, 20, 30]堆叠为 3 个观测通道。
验证摘要
完整 HDF5 文件的本地验证结果:
obs_shape = [50000, 3, 64, 64] actions_shape = [50000, 256] next_obs_shape = [50000, 3, 64, 64] obs mean/std = 0.3968 / 0.1920 next mean/std = 0.3975 / 0.1917 nonfinite = 0
动态基线:
identity_mse mean = 0.0051056 mean_next_mse mean = 0.0188126 identity / mean ratio = 0.2714 obs_next_cosine mean = 0.9866 delta_l1 mean = 0.0511
预期用途
- Activation-as-View 实验。
- 在语言模型激活状态上进行 JEPA 风格或潜在世界模型训练。
- 转移预测和期望违背实验。
- 比较激活到图像编码的消融实验。
局限性
- 数据集从
Qwen/Qwen3-32B生成;用户必须遵守上游模型的许可协议和条款。 - 转移范围是局部的 (
t -> t+1),因此恒等复制基线很强。 - 提示来源是用于实验可比性的合成/分层框架,而非自然基准分布。
- 该数据集不旨在作为文本语料库或 Qwen 模型质量的基准。
引用与项目
该数据集是为 CODE-JEPA 中的 Activation-as-View 研究原型制作的。




