aniketdesh/ward-stage-b-cache

Name: aniketdesh/ward-stage-b-cache
Creator: aniketdesh
Published: 2026-05-01 23:09:33
License: 暂无描述

Hugging Face2026-05-01 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/aniketdesh/ward-stage-b-cache

下载链接

链接失效反馈

官方服务：

资源简介：

Ward 2025 Stage B reproduction cache数据集包含了激活缓存、挖掘的特征、连贯性/判断标签以及每个单元的B1引导生成结果，用于Ward等人2025年论文的Stage B复现。该数据集与代码、文档和字典检查点配套使用，内容涵盖激活数据、特征数据、引导结果、连贯性评分、回溯判断等，旨在支持对基础模型中潜在表示的重用研究。

The Ward 2025 Stage B reproduction cache dataset includes activation cache, mined features, coherence/judge labels, and per-cell B1 steering generations for the Stage B paper-budget reproduction of Ward et al. 2025. This dataset is a companion to code, writeups, and dictionary checkpoints, containing activations, features, steering results, coherence grades, backtracking judgments, and more, supporting research on repurposing latent representations in base models.

提供机构：

aniketdesh

搜集汇总

数据集介绍

构建方式

本数据集源于Ward等人2025年发表于arXiv的研究——《Reasoning-Finetuning Repurposes Latent Representations in Base Models》的Stage B预算复现实验。激活缓存基于3300个推理轨迹窗口（每窗口256个token），从Llama-3.1-8B基座模型的resid_L10、attn_L10和ln1_L10三个钩子点提取，以bfloat16精度存储为npy文件。特征矩阵通过Sparse Autoencoder（SAE）与Temporal Crosscoder（TXC）等多种架构挖掘，每评估单元独立存储为npz格式，包含解码器权重与D+/D-分数。干预生成数据涵盖12个基细胞及DoM基线的B1阶段扫掠实验，共计约1.33万行，每条记录包含源、干预幅度、提示ID及关键词率等信息。

特点

该数据集的核心特色在于其多维度的机理可解释性分析框架。一方面，它提供了Sonnet 4.6生成的0-3级连贯性评分与行为回溯判定标签，用于量化干预生成文本的质量与逻辑一致性；另一方面，每个细胞单元均汇总了主关键词率、95%自助法置信区间、回溯真实率等聚合指标，便于跨架构对比。特别地，TXC变体（如txc_h8、txc_h13）与标准SAE、Stacked SAE等六种架构同场竞技，并通过Sonnet与行为判官两种排行榜排序，揭示了不同稀疏编码方法在回溯行为诱发上的差异。数据集还包含Han对比变体与B3 MATH-500的负面结果，为后续研究提供了边界条件参考。

使用方法

使用者需先克隆配套代码仓库（分支aniket-ward-stage-b），并通过uv sync安装依赖。将本数据集下载至results/ward_backtracking_txc/目录下（或建立符号链接），同时从配套字典仓库中拉取模型检查点至checkpoints/子目录。运行评估时，执行python -m experiments.ward_backtracking_txc.evaluate_cell --cell <细胞ID>命令，其中细胞ID包含架构、钩子点、每位置特征数k、随机种子及排序规则等关键参数。需注意，激活缓存复用同一批提示词，真实分布外评估需重新计算缓存；Sonnet判官标签采集于2026年5月1日，其判定可能随时间漂移。

背景与挑战

背景概述

该数据集由Aniket等人于2025年创建，基于Ward等人提出的推理微调重塑基础模型潜在表征的研究（arXiv 2507.12638），旨在通过机制可解释性方法剖析大型语言模型在推理任务中的内部运作机制。数据集由HuggingFace平台托管，聚焦于Llama-3.1-8B基础模型中回溯（backtracking）行为的神经表征，通过稀疏自编码器（Sparse Autoencoder）与时序交叉编码器（Temporal Crosscoder）提取激活缓存和特征，为理解模型推理过程中的动态表征重组提供了关键实验资产。其影响力体现在为量化模型内部推理能力与行为一致性提供了可复现的基准和标准化评估框架。

当前挑战

该数据集所解决的领域挑战包括：1）大型语言模型在推理任务中如何进行内部表征的重组与回溯行为，现有研究缺乏可解释性工具来定位具体神经特征与行为模式的对应关系；2）构建过程中需应对跨种子、跨架构（如txc、topk_sae等）的异构特征空间对齐难题，确保不同配置下的评估结果可比；3）激活缓存基于固定推理轨迹计算，存在分布偏移风险，难以直接推广至未见过的数据分布；4）依赖超自然模型（如Sonnet 4.6）进行行为评判，其自身可能存在时间漂移，影响标签的长期稳定性与结论的可重复性。

常用场景

经典使用场景

在机械可解释性领域，该数据集常用于复现与验证Ward等人2025年提出的推理微调对基础模型潜在表征的改造机制。研究团队通过激活缓存、稀疏自编码器（Sparse Autoencoder）与时间交叉编码器（Temporal Crosscoder），系统性地从Llama-3.1-8B模型的残差流与注意力头中挖掘可解释特征，并评估其对模型回溯（Backtracking）行为的干预效果。经典用法涵盖从特征挖掘、凝练标签生成到行为判定的全流程，支持可重复的科学实验范式。

解决学术问题

该数据集着力回应推理微调如何重塑基础模型内部表征这一核心议题，尤其聚焦于回溯行为的基础机制。通过提供标准化的激活缓存与跨细胞（Cell）特征评分，研究者得以精准量化稀疏特征对模型逻辑回归（DoM）与回溯能力的因果贡献。这一系统化评测框架不仅澄清了推理能力增强背后的表征变迁路径，更为可解释性研究树立了新的标准基准，推动了从黑箱观测走向机制拆解的学科转型。

衍生相关工作

该数据集衍生出多项开创性工作，包括基于时间交叉编码器（Temporal Crosscoder）与堆叠稀疏自编码器（Stacked SAE）的对比研究，以及汉氏对比变体（txc_h8与txc_h13）的探索。进一步延伸工作涉及多种子与嵌入维度的超参数扫描，以及基于行为评判（Behavioral Judge）与Sonnet 4.6分级的多维评测体系。其数据还可支撑后续跨细胞聚合统计（Cell Metrics）与B3 MATH-500验证研究，持续推动稀疏特征与推理行为因果链的深入解析。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集