qwen3-32b-token-similarity-activation-triplets

Hugging Face2026-04-14 更新2026-04-15 收录

下载链接：

https://huggingface.co/datasets/Artvv/qwen3-32b-token-similarity-activation-triplets

下载链接

链接失效反馈

官方服务：

资源简介：

Qwen3-32B Token-Similarity Activation Triplets 数据集包含 50,000 个从 Qwen3-32B 模型的内部残差激活生成的转移三元组，编码为类似图像的 token-token 相似性映射，用于 Activation-as-View 或世界模型实验。该数据集旨在研究语言模型激活状态是否可以转换为适合 JEPA 风格或潜在世界模型训练的视觉观察。数据集内容主要包括 HDF5 格式的三元组数据、生成报告、验证报告和动态基线报告。HDF5 文件包含观测值、动作、下一个观测值、类别、源 ID、提示 ID 和步骤 ID 等字段。观测值是通过计算选定 transformer 层的 token-token 相似性并编码为 64x64 图像得到的。数据集适用于 Activation-as-View 实验、JEPA 风格或潜在世界模型训练、转移预测和期望违反实验等。需要注意的是，数据集生成自 Qwen3-32B 模型，用户需遵守上游模型许可；转移范围是局部的（t -> t+1），因此身份复制基线较强；提示源是合成的/分层支架，用于实验可比性，而非自然基准分布。

创建时间：

2026-04-13

原始信息汇总

Qwen3-32B Token-Similarity Activation Triplets 数据集概述

基本信息

数据集名称：Qwen3-32B Token-Similarity Activation Triplets
许可协议：other
任务类别：feature-extraction, reinforcement-learning
标签：activation-as-view, world-model, qwen3, token-similarity, representation-learning, jepa
数据规模：10K<n<100K
数据量：50,000 个三元组

数据集内容

该数据集包含从 Qwen/Qwen3-32B 模型的内部残差激活生成的 50,000 个转移三元组，并编码为类似图像的 token-token 相似性图，用于 Activation-as-View 或世界模型实验。

文件结构

data/qwen3_32b_train_token_similarity.h5：包含 50,000 个三元组的 HDF5 数据集文件。
reports/generation_report.json：Modal 作业返回的生成摘要。
reports/validation_report.json：本地 HDF5 完整性及统计报告。
reports/dynamics_baselines.json：转移任务的恒等/均值/差值基线。

数据模式

HDF5 文件包含以下键：

键名	形状	数据类型	描述
`obs`	`[50000, 3, 64, 64]`	`float32`	步骤 `t` 的观测值，编码为来自层 `[10, 20, 30]` 的 token-token 相似性图。
`actions`	`[50000, 256]`	`float32`	生成 token 嵌入的 PCA-256 投影。
`next_obs`	`[50000, 3, 64, 64]`	`float32`	步骤 `t+1` 的观测值。
`categories`	`[50000]`	bytes/string	提示类别。
`source_ids`	`[50000]`	bytes/string	提示来源。
`prompt_ids`	`[50000]`	bytes/string	提示标识符。
`step_ids`	`[50000]`	int	提示内的生成步骤。

重要 HDF5 属性：

model = Qwen/Qwen3-32B encoding = token_similarity_v1 layers = [10, 20, 30] action_encoding = embedding_pca256 obs_shape = [3, 64, 64] split = train

编码方法

token_similarity_v1 编码针对每个选定的 Transformer 层计算：

收集残差激活 [seq_len, hidden_dim]。
对每个 token 向量进行中心化。
对 token 向量进行 L2 归一化。
计算余弦 token-token 相似性 z @ z.T。
将相似性从 [-1, 1] 映射到 [0, 1]。
调整大小为 64 x 64。
将层 [10, 20, 30] 堆叠为 3 个观测通道。

验证摘要

完整 HDF5 文件的本地验证结果：

obs_shape = [50000, 3, 64, 64] actions_shape = [50000, 256] next_obs_shape = [50000, 3, 64, 64] obs mean/std = 0.3968 / 0.1920 next mean/std = 0.3975 / 0.1917 nonfinite = 0

动态基线：

identity_mse mean = 0.0051056 mean_next_mse mean = 0.0188126 identity / mean ratio = 0.2714 obs_next_cosine mean = 0.9866 delta_l1 mean = 0.0511

预期用途

Activation-as-View 实验。
在语言模型激活状态上进行 JEPA 风格或潜在世界模型训练。
转移预测和期望违背实验。
比较激活到图像编码的消融实验。

局限性

数据集从 Qwen/Qwen3-32B 生成；用户必须遵守上游模型的许可协议和条款。
转移范围是局部的 (t -> t+1)，因此恒等复制基线很强。
提示来源是用于实验可比性的合成/分层框架，而非自然基准分布。
该数据集不旨在作为文本语料库或 Qwen 模型质量的基准。

引用与项目

该数据集是为 CODE-JEPA 中的 Activation-as-View 研究原型制作的。

搜集汇总

数据集介绍

构建方式

该数据集构建于大型语言模型Qwen3-32B的内部残差激活状态之上，通过精心设计的编码流程生成五万个转移三元组。具体而言，研究人员从模型特定层（第10、20、30层）提取序列中每个令牌的残差激活向量，随后进行中心化与L2归一化处理，计算令牌间的余弦相似度矩阵，并将数值范围映射至[0,1]区间。最终，这些相似度矩阵被统一缩放至64x64分辨率，并沿通道维度堆叠，形成具有三个通道的图像式观测表示，而动作信息则通过令牌嵌入的PCA-256投影获得。

使用方法

该数据集主要应用于激活状态视图化、JEPA风格或潜在世界模型的训练研究。使用者可通过加载HDF5格式文件，获取观测、动作及下一观测张量，进而构建过渡预测任务或进行期望违背实验。在模型训练与评估过程中，建议参考数据集提供的身份复制基线均方误差，以相对性能指标衡量模型预测能力。需要注意的是，数据源自特定模型架构与合成提示框架，适用于可控实验环境，而非自然语言处理的一般性评测。

背景与挑战

背景概述

在人工智能与认知科学交叉领域，探索语言模型内部表征的可视化与结构化理解已成为前沿课题。Qwen3-32B Token-Similarity Activation Triplets数据集于近期由CODE-JEPA研究项目创建，旨在支持激活即视图与世界模型的研究范式。该数据集的核心研究问题聚焦于如何将大规模语言模型如Qwen/Qwen3-32B的内部残差激活状态，转化为适用于联合嵌入预测架构或潜在世界模型训练的视觉化观测表示。通过提取模型特定层级的令牌间相似性图谱，并构建状态转移三元组，该数据集为深入解析语言模型动态表征提供了结构化实验基础，推动了从黑箱模型向可解释、可操作认知系统迈进的学术探索。

当前挑战

该数据集致力于解决语言模型激活状态作为视觉观测的编码与预测挑战，其核心在于克服传统隐藏维度任意空间语义的局限，通过令牌关系结构保持实现表征的稳健转换。构建过程中面临多重技术难题：首先，需设计高效的令牌相似性编码方案，将高维激活映射为规整的图像形式，同时确保信息保真度；其次，生成大规模、高质量的三元组数据要求精确控制模型内部状态采样与对齐，避免引入分布偏差；此外，数据集的合成提示来源虽利于实验可比性，却与自然语言分布存在差距，可能限制模型的泛化能力评估。这些挑战共同指向了语言模型内部动力学建模的复杂性与未解之谜。

常用场景

经典使用场景

在语言模型内部表示学习领域，该数据集通过将Qwen3-32B模型的残差激活编码为图像化的token相似性图谱，为激活状态的可视化建模提供了结构化数据。其经典使用场景聚焦于JEPA风格或潜在世界模型的训练实验，研究者能够利用这些三元组数据探索语言模型激活状态如何转化为适合预测学习的视觉观测，从而推动模型内部动态的可解释性研究。

解决学术问题

该数据集主要解决了语言模型激活状态表示与视觉观测转换的学术难题，为激活即视图的研究范式提供了实证基础。通过提供标准化的过渡三元组，它支持对模型内部token间关系结构的量化分析，有助于突破传统文本表示学习的局限，促进跨模态表示对齐的理论探索，并为违反预期实验等认知计算研究提供了数据支撑。

实际应用

在实际应用层面，该数据集可服务于强化学习智能体的世界模型构建，通过预测语言模型激活状态的动态变化，提升序列决策任务的样本效率。同时，其编码方法为模型可解释性工具开发提供了新思路，能够辅助诊断模型内部表示的一致性，并在自动化文本生成系统中用于优化隐状态调控策略。

数据集最近研究