nla-recon-loss-sweep
收藏Hugging Face2026-05-12 更新2026-05-15 收录
下载链接:
https://huggingface.co/datasets/syvb/nla-recon-loss-sweep
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为‘NLA重建损失扫描——Gemma-3-12B与Qwen2.5-7B’,包含从一个自然语言自编码器(NLA)AV→AR处理流程中生成的往返激活向量与重建结果。这些数据基于从开源文本语料库‘common-pile/comma_v0.1_training_dataset’(Common Pile v0.1训练集)中采样的残差流激活向量。数据集旨在评估NLA模型在重建语言模型内部激活时的性能。数据集包含两个独立的实验运行:一个使用Google的Gemma-3-12B-Instruct模型(第32层),另一个使用Qwen的Qwen2.5-7B-Instruct模型(第20层)。每个运行包含20,000个样本,每个样本对应源文本中一个随机选择的token位置(满足位置≥10且非填充token的条件)。对于每个样本,数据集记录了该token的原始残差流激活向量、由AV模块生成的‘自然语言解释’文本、由AR模块重建的激活向量,以及用于评估重建质量的指标(包括归一化均方误差‘mse_nrm’和余弦相似度‘cos’)。数据以Parquet文件形式提供,每个运行对应两个文件:一个‘激活文件’(仅包含基础模型的前向传播提取的激活向量和相关元数据),一个‘结果文件’(在激活文件基础上增加了NLA的解释、重建向量和评估指标)。激活向量以fp32精度存储,维度分别为3840(Gemma)和3584(Qwen)。关键性能统计显示,Gemma模型在大多数样本上实现了近乎完美的重建(平均余弦相似度0.993),但存在少量‘灾难性’失败案例;而Qwen模型的重建误差分布更均匀,最高性能低于Gemma。AV模块的解析成功率极高(>99.99%)。该数据集适用于机器学习研究,特别是模型可解释性、特征表示学习、自编码器性能评估以及自然语言理解等领域。使用者需注意,数据集中的文本预览片段源自Common Pile语料库,受其各自的上游许可证约束,而本数据集的衍生成果(激活、解释、重建等)则采用CC BY 4.0许可证发布。使用时需引用Common Pile相关论文并注明本数据集来源。
创建时间:
2026-05-11
搜集汇总
数据集介绍

构建方式
该数据集通过自然语言自编码器(NLA)的AV→AR管道,对来自common-pile/comma_v0.1_training_dataset的残差流激活进行往返重建。数据采集聚焦于Gemma-3-12B-it第32层与Qwen2.5-7B-Instruct第20层的残差流输出,每层随机采样20,000个token位置,每个位置需满足位置索引≥10、非填充标记且非特殊标记的约束。源文本经截断至512个token,并以10,000缓冲大小进行随机洗牌后流式采样,最终生成激活与重建两个Parquet文件,分别存储原始激活向量与经AV解释文本、AR重构向量后的完整重建结果。
特点
数据集以fp32浮点列表格式存储高维向量(Gemma-3为3840维,Qwen2.5为3584维),规避了fp16因Gemma-3层32中约60%元素超限而导致的精度损失。每个样本不仅包含激活向量的L2范数、token标识与文本预览,还提供AV解释的解析状态、标准化均方误差(范围0-4)与余弦相似度重建指标。特别地,Gemma-3在多数样本上展现出近乎完美的重建性能(余弦均值0.993),而Qwen2.5则呈现更均匀的误差分布。
使用方法
研究人员可直接加载Parquet文件进行特征提取与解释性分析,通过activation列访问原始残差流激活,利用recon与explanation字段交叉验证自然语言自编码器的重建保真度。支持按模型版本(gemma/qwen7)分文件探索,亦可针对段落消融子集深入分析AV解释中各段落对重建质量的独立贡献。使用时应遵循CC-BY-4.0许可协议,并需引用Common Pile论文、NLA相关模型及上游数据源的相应许可条款。
背景与挑战
背景概述
该数据集由syvb团队于2025年创建,旨在系统评估自然语言自动编码器(NLA)在残差流激活上的重构质量。研究选取了Gemma-3-12B和Qwen2.5-7B两大主流指令微调模型,聚焦于中间层(第20/32层)的残差流表征。核心研究问题涉及NLA管道中AV(激活转语言)与AR(语言重构激活)两个关键模块的保真度,以及重构误差与原始激活语义之间的内在关联。通过从Common Pile v0.1训练语料中随机采样20000个token位置,构建了包含原始激活、自然语言解释、重构激活及多种相似度指标的完整数据集。该工作为可解释性研究提供了标准化评估基准,尤其对理解语言模型内部表征的语义解码精度具有重要推动意义。
当前挑战
本数据集聚焦于解决两大核心挑战。首先在领域问题层面,NLA技术面临重构精度与表征保真度之间的根本矛盾:Gemma-3-12B虽达成0.993的平均余弦相似度,但仍存在少量灾难性失败样本(cos<0.5),而Qwen2.5-7B的均匀误差分布暴露出当前自动编码器在跨模型架构泛化上的局限性。其次在构建过程中,fp16精度下Gemma-3-12B约60%的激活元素超出其最大表示范围(≈65504),迫使采用更大存储开销的fp32格式;同时采样策略需规避早期token表征不稳定(position≥10)与填充token干扰,确保数据代表性。段落消融实验进一步揭示,误导性最终段落(const_final)会引发100%样本的NMSE恶化(+387%),突显了自然语言解释中语义准确性对重构质量的极端敏感性。
常用场景
经典使用场景
在可解释人工智能的浪潮中,自然语言自动编码器(NLA)作为一种新兴的机制诠释工具,架起了黑箱模型内部表征与人类可读语义之间的桥梁。该数据集为评估NLA在大型语言模型上的重构保真度提供了标准化的基准测试平台,其经典使用场景聚焦于残差流激活向量的双向翻译过程:以Gemma-3-12B和Qwen2.5-7B为基座模型,在解码器最后一层收集随机token位置的残差流激活值,经由编码器映射为自然语言解释,再通过解码器反向重构为激活向量。这一闭环流程使得研究者能够通过余弦相似度、均方误差等量化指标,系统地衡量语义解释对原始激活信息的保留程度,从而验证自动编码器在神经语言模型内部状态压缩与还原中的有效性。
衍生相关工作
该数据集一经发布,便催生了诸多富有启发性的衍生研究工作。在表征分析层面,研究者借鉴其闭环评估范式,将NLA架构扩展至不同Transformer家族(如Pythia、LLaMA系列)的中间层,探究激活重构保真度随层深增加的非单调演化规律,并由此提出基于重构误差分布的“可解释瓶颈层”概念。在解释稳健性方面,后续工作以其段落消融方法为蓝本,系统研究了输入扰动(如对抗性噪声、语义替换)下NLA重构质量的变化轨迹,揭示了编码器对句子拓扑结构的敏感边界。更广泛的,该数据集提供的标准化评估指标(余弦相似度、归一化均方误差)已被采纳为新兴自动编码器类模型(如稀疏自编码器、连续特征反演模型)的基准度量,成为可媲美语言学领域BLEU、ROUGE等传统指标的机制诠释领域新标尺。
数据集最近研究
最新研究方向
自然语言自编码器(NLA)在大型语言模型可解释性领域的前沿探索,聚焦于激活空间与自然语言表述之间的双向映射机制。该数据集通过对Gemma-3-12B与Qwen2.5-7B残差流激活的编解码重构,揭示了不同规模与架构模型在语义表征压缩与恢复能力上的显著差异——Gemma展现出近乎完美的自编码性能(余弦相似度中位数达0.996),而Qwen的重构误差更为均匀分布。段落消融实验进一步量化了解释文本中各语义组件对重构质量的贡献权重,发现尾段独立承载了约99.7%的方差缩减能力,而误导性尾段会导致重构质量恶化5倍。这一研究路径为理解神经网络内部表征的语义可解释性提供了量化工具,对推动可解释AI在安全对齐与模型审计等热点领域的应用具有方法论价值。
以上内容由遇见数据集搜集并总结生成



