karlexmarin/taf-attention-decay

Name: karlexmarin/taf-attention-decay
Creator: karlexmarin
Published: 2026-05-01 22:20:54
License: 暂无描述

Hugging Face2026-05-01 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/karlexmarin/taf-attention-decay

下载链接

链接失效反馈

官方服务：

资源简介：

TAF注意力衰减测量数据集是第一个公开的关于transformer LLMs注意力衰减指数γ测量的数据集。该数据集包含35个模型，13个家族，88条记录，覆盖了两种语料库（真实文本和随机标记）和两种精度（4-bit NF4和bfloat16）。数据集还包括随机初始化控制、Pythia-70M训练轨迹、Pythia-31m高n鲁棒性、Yi-9B随机标记等特定内容。注意力衰减指数γ是一个单数诊断指标，用于衡量transformer的注意力是局部还是全局的，它连接了RoPE几何与长上下文行为、KV缓存压缩、NIAH检索和幻觉率等。

The TAF Attention-Decay Measurements dataset is the first public dataset of attention-decay exponent γ measurements across transformer LLMs. It includes 35 models from 13 families, totaling 88 records, covering two corpora (real text and random tokens) and two precisions (4-bit NF4 and bfloat16). The dataset also features random-init controls, Pythia-70M training trajectory, Pythia-31m high-n robustness, and Yi-9B random_tokens, among others. The attention-decay exponent γ is a single-number diagnostic of how locally or globally a transformer attends, connecting RoPE geometry to long-context behavior, KV-cache compression, NIAH retrieval, and hallucination rates.

提供机构：

karlexmarin

搜集汇总

数据集介绍

构建方式

该数据集通过系统性地测量35个来自13个不同系列（包括Pythia、Qwen、Llama、Mistral、Gemma等）的Transformer大语言模型上的注意力衰减指数γ构建而成。每个记录代表在一个特定（模型、语料库、精度）三元组上的γ测量值，γ被定义为注意力权重随距离d遵循幂律衰减A(d) ∝ d^(-γ)的指数。测量基于RoPE几何结构预测的闭式Padé公式γ_padé = (2θ - T√2) / (2θ + T√2)，其中θ为RoPE基频，T为评估上下文长度。数据涵盖2种语料库（真实文本与随机Token）、2种精度（4位NF4量化与bfloat16），并包含随机初始化对照实验以验证幂律指数ν = ∂γ/∂log₁₀(P) ≈ -1/(2π)是训练印记而非架构伪影。

特点

该数据集作为首个公开的注意力衰减指数γ测量基准，具有多项独特特征。全景式覆盖35个模型家族共88条记录，从14M参数的小模型至9B参数大模型，为跨模型比较提供了坚实基础。特别纳入Pythia-70M训练轨迹（9个检查点×2种语料库展示了模型内部的γ演化，同时诚实地揭示了其不收敛到跨模型恒定印记ν = -1/(2π)的零结果。通过高n值稳健性测试（n=60提示）与R²方向规则扩展（配对测量从n=5增至n=8），数据集确保了统计推断的可靠性，并系统性地记录了精度下降对γ分布的影响。

使用方法

利用HuggingFace dataset库可通过一行代码加载数据：from datasets import load_dataset; ds = load_dataset("karlexmarin/taf-attention-decay")。每条JSONL记录包含完整的模型架构参数（如层数、头数、RoPE参数）、测量细节（γ值及其95%置信区间、拟合优度R²、评估长度）以及理论预测值。使用者可通过Pandas read_json方法高效分析，例如按语料库类型筛选后构建数据框，利用groupby按模型架构对γ值进行描述性统计分析，深入探讨不同模型家族间的注意力局部性差异。全部测量完全可复现，通过开源工具tafagent可从原始模型权重重新生成每条记录。

背景与挑战

背景概述

在大规模语言模型（LLM）的注意力机制研究中，注意力权重随标记间距离增大而呈现幂律衰减的规律已被广泛关注，其衰减指数γ作为衡量模型局部或全局注意力倾向的关键诊断指标，直接影响长上下文推理、KV缓存压缩及检索增强生成等应用性能。然而，截至目前，学界尚缺乏一个系统性的、跨模型族的γ测量公共基准。为填补这一空白，Carles Marín于2026年创建了TAF Attention-Decay Measurements数据集。该数据集基于热力学注意力框架（TAF）的理论指导，系统测量了涵盖Pythia、Qwen、Llama、Mistral、Gemma等13个主流模型家族共35个模型的γ值，共计88条高精度记录。数据集同时包含随机初始化控制组与训练轨迹追踪，为验证“学习印记”假设提供了关键实证，有力推动了注意力机制可解释性与缩放法则研究的发展。

当前挑战

该数据集所面临的挑战主要体现在两个层面。在领域问题层面，其核心科学难题在于准确分离模型架构固有属性与训练数据带来的学习印记对γ的影响，即阐明γ随模型规模变化的斜率ν是否真正源于训练过程而非单纯架构产物，这一问题的解答对理解Transformer泛化本质至关重要。在数据集构建过程中，面临的挑战包括：需要跨多个模型家族在不同精度（4-bit NF4与bfloat16）与语料类型（自然文本与随机Token）下进行标准化测量，以确保结果的可比性；同时，为验证γ作为通用诊断指标的有效性，构建了随机初始化控制组与Pythia-70M的训练轨迹（9个检查点×2种语料），这一过程不仅计算开销巨大，还需严谨处理统计显著性检验，并如实报告训练轨迹未收敛至预期斜率的“诚实”负结果，体现了科学数据构建中对可复现性与结论客观性的严格要求。

常用场景

经典使用场景

在Transformer架构的可解释性研究中，TAF注意力衰减数据集被广泛用于度量不同大语言模型在长距离依赖下的注意力衰减指数γ。该指数通过闭式Padé公式，基于旋转位置编码（RoPE）的几何参数与评估上下文长度推导得出，揭示了模型在远距离token之间建立关联的强度。研究者通常利用该数据集比较不同模型家族（如Pythia、Qwen、Llama）的注意力局部化与全局化倾向，分析模型规模、预训练数据与注意力衰减模式之间的内在关联。

衍生相关工作

该数据集衍生出一系列具有深远影响的研究工作，其中最为核心的是热力学注意力框架（TAF）系列论文，包括通过封闭形式Padé公式预测注意力衰减的奠基性工作，以及六轴分解体系中对训练印记ν与精度边界的深入探索。后续研究基于该数据集的γ测量结果，发展出R²方向规则扩展，验证了8对双精度测量中7对符号正确性，并为RLHF引起的注意力变化（如Mistral-7B的Δγ_RLHF = −0.133）提供了量化证据。该数据集还启发了对Transformer临界指数代数恒等式的形式化验证，催生了Sage与Lean双工具验证的D-SAGE-1恒等式。

数据集最近研究