taf-attention-decay

Hugging Face2026-05-01 更新2026-05-02 收录

下载链接：

https://huggingface.co/datasets/karlexmarin/taf-attention-decay

下载链接

链接失效反馈

官方服务：

资源简介：

TAF Attention-Decay Measurements 是首个公开的关于Transformer大语言模型（LLMs）注意力衰减指数γ测量的数据集。该数据集作为论文《Predicting How Transformers Attend》（Marín 2026）的配套资源，旨在提供关于Transformer注意力机制的量化分析。数据集包含79条记录，覆盖13个模型家族的33个模型，包括Pythia、Qwen、Llama、Mistral等。每条记录包含一个（模型、语料库、精度）三元组的γ测量结果。数据格式为JSONL，每个记录包含模型架构信息、测量结果、预测值和来源信息。数据集适用于特征提取任务，可用于研究Transformer的注意力机制、长上下文行为、KV缓存压缩等。数据集采用CC-BY-4.0许可，测量代码采用Apache-2.0许可。

TAF Attention-Decay Measurements is the first publicly available dataset for measuring the attention decay exponent γ in Transformer-based large language models (LLMs). This dataset serves as a companion resource for the paper Predicting How Transformers Attend (Marín 2026), aiming to provide quantitative analysis of Transformer attention mechanisms. The dataset contains 79 records covering 33 models from 13 model families, including Pythia, Qwen, Llama, Mistral, etc. Each record includes γ measurement results for a (model, corpus, precision) triplet. The data format is JSONL, with each record containing model architecture information, measurement results, predicted values, and source information. The dataset is suitable for feature extraction tasks and can be used to study Transformer attention mechanisms, long-context behavior, KV cache compression, etc. The dataset is licensed under CC-BY-4.0, and the measurement code is licensed under Apache-2.0.

创建时间：

2026-04-29

原始信息汇总

数据集概述：TAF Attention-Decay Measurements

该数据集是首个公开的跨 Transformer 大语言模型（LLM）的注意力衰减指数 γ 测量数据集，旨在填补该领域的数据空白。

核心内容

测量指标：记录每个（模型、语料、精度）组合下的 γ 值。γ 是注意力权重随距离 d 按幂律衰减的指数，公式为 A(d) ∝ d^(-γ)。该指数通过 RoPE 几何结构的闭式 Padé 公式预测。
数据集规模：包含 79 条记录，覆盖 33 个模型，来自 13 个模型族（如 Pythia, Qwen, Llama, Mistral, Gemma, Phi 等）。
数据维度：
- 语料：真实文本（real_text）和随机 Token（random_tokens）两种。
- 精度：4-bit NF4 和 bfloat16 两种精度。
- 特殊数据：
  - 包含随机初始化控制组，证明斜率 ν 是训练印记。
  - 包含 Pythia-70M 的训练轨迹（9 个检查点 × 2 种语料 = 18 条记录），并诚实地指出：该轨迹未收敛到跨模型发现的恒定印记 ν。
  - 包含 Pythia-31m 的高稳健性测量和 Yi-9B 的数据以填充模型空白。

数据格式与访问

格式：JSONL 格式文件 taf-attention-decay.jsonl。
访问方式：可使用 datasets 库或 pandas 库加载和查询。 python

使用 datasets 库

from datasets import load_dataset ds = load_dataset("karlexmarin/taf-attention-decay") print(ds["train"][0])

python

使用 pandas 库

import pandas as pd df = pd.read_json("taf-attention-decay.jsonl", lines=True) df_text = df[df["measurement"].apply(lambda m: m["corpus"] == "real_text")] df_text["gamma"] = df_text["measurement"].apply(lambda m: m["gamma"]) print(df_text.groupby("arch")["gamma"].describe())

数据模式

每条 JSONL 记录包含以下主要字段：

model_id: 模型标识符及版本。
arch: 模型架构参数（如 d_model, n_heads, rope_theta 等）。
measurement: 测量结果，包括 γ 值及其 95% 置信区间、拟合优度 (R²)、评估上下文长度、语料类型、精度等。
predictions: 通过 Padé 公式预测的 γ 值及理论印记常数。
decision: 测量决策摘要。
provenance: 数据来源与工具信息。

数据集目的与价值

目的：γ 是诊断 Transformer 模型注意力局部性或全局性的关键指标，与长上下文行为、KV 缓存压缩、检索能力及幻觉率相关。该数据集为相关研究提供了基础。
许可：数据集采用 CC-BY-4.0 许可，测量代码采用 Apache-2.0 许可。

排除内容

该数据集不包含原始注意力张量、逐层逐头的 γ 场、全面的训练轨迹 γ 或下游任务分数。

搜集汇总

数据集介绍

构建方式

该数据集是首个公开的关于Transformer大语言模型中注意力衰减指数γ的测量数据集。γ描述了注意力权重随标记间距离d呈幂律衰减的规律，即A(d) ∝ d^(-γ)。研究者基于RoPE旋转位置编码的几何特性，通过闭合形式的Padé近似公式γ_padé = (2θ - T√2) / (2θ + T√2)对γ进行理论预测，并在33个不同规模和家族的模型上进行了系统测量，涵盖了Pythia、Qwen、Llama、Mistral等13个模型家族。测量过程跨两种语料（真实文本与随机令牌）和两种精度（4位NF4量化与bfloat16），最终形成了包含79条记录的数据集。数据以JSONL格式存储，每条记录详细记录了模型架构参数、测量条件、拟合优度以及理论预测值，确保了可复现性。

使用方法

使用该数据集极为便捷，开发者可直接通过HuggingFace的datasets库加载：from datasets import load_dataset; ds = load_dataset("karlexmarin/taf-attention-decay")，即可获取训练集并访问第一条记录。对于偏好Pandas的用户，亦可直接读取JSONL文件：pd.read_json("taf-attention-decay.jsonl", lines=True)，并利用测量条件中的corpus字段筛选特定语料下的数据。每条记录中的architecture和measurement字段提供了丰富的筛选维度，便于研究者按模型家族、参数规模、精度或语料类型进行分层分析。数据集还附带了完整的复现工具链，包括开源的测量协议和浏览器端工具，确保任何测量结果均可从原始模型权重复现。

背景与挑战

背景概述

Transformer架构中注意力机制的衰退行为是理解长文本建模、键值缓存压缩及幻觉现象的关键。Carles Marín于2026年发布的TAF Attention-Decay Measurements数据集，首次系统性地测量了跨13个模型家族、33个大型语言模型（LLM）的注意力衰退指数γ，并与论文《Predicting How Transformers Attend》相伴而生。该数据集通过闭形式Padé公式将RoPE几何参数映射至注意力权重的幂律衰减，覆盖Pythia、Llama、Mistral等主流模型，揭示了模型大小与衰退模式间的跨模型印记常数，为可解释性研究与缩放定律提供了量化基准，推动了注意力机制理论从定性描述向定量预测的跃迁。

当前挑战

该数据集领域核心挑战在于，现有理论预测的注意力衰退指数γ与模型实际行为间存在偏差，例如Pythia-70M训练轨迹未向理论跨模型印记常数收敛，表明衰退模式的形成机制尚待厘清。构建过程中，作者面临数十亿参数模型在有限计算预算下的高效测量问题，需在4-bit量化与bfloat16精度间平衡准确性；同时，随机token控制实验排除了架构伪影，突出了训练印记的独特作用，但跨家族模型的异质性仍要求覆盖足够多的尺寸与家族，方能验证预测公式的普适性。

常用场景

经典使用场景

TAF注意力衰减指数数据集是首个公开的、涵盖多种Transformer大语言模型注意力衰减幂律指数γ的测量集合。在探索Transformer内部运作机制的学术研究中，该数据集最经典的使用场景是量化分析不同规模、不同架构的语言模型在自注意力机制中的局部性与全局性特征。研究者借助该数据集可以精确评估RoPE位置编码几何对注意力权重空间分布的影响，并通过对比真实文本与随机令牌两种语料下的γ值差异，深入理解语言统计规律如何塑造注意力模式。此外，数据集中包含的随机初始化对照实验（如Pythia系列的Falsifier测试）为区分“训练印记”与“架构伪影”提供了关键基准，使得该数据集成为解构注意力机制计算原理不可替代的实证基础。

解决学术问题

该数据集直面的核心学术问题是跨模型注意力行为缺乏统一量化标准与预测理论。研究界长期困惑于不同参数规模、不同训练阶段的Transformer为何表现出截然不同的长程依赖捕捉能力，而传统的注意力可视化与热力图分析难以提供可比较的标量指标。TAF数据集通过提出并标准化γ指数这一单一诊断数值，将注意力衰减的连续谱系转化为可量化的数学规律，成功连接了RoPE几何设计与长上下文行为、幻觉率、检索性能等下游表现。其揭示的跨模型幂律指数斜率ν ≈ −1/(2π)作为训练印记的发现，不仅系统性地解释了模型规模与注意力局部性之间的反比关系，更打破了“架构即命运”的固有认知，为注意力理论从现象描述跃迁至数学预测奠定了基石。

实际应用

在实际工程应用中，TAF注意力衰减指数数据集为大型语言模型的高效部署与优化提供了精密的诊断工具。模型压缩领域利用γ指数可以快速预测KV缓存压缩的可行性与最佳策略——当模型注意力呈高度局部化（高γ值）时，可以安全地裁剪远距离的键值对而不会显著损失性能，从而在长文本推理场景中实现显著的显存节约。检索增强生成系统的设计者则借助该数据集评估不同模型对远距离上下文的敏感程度，自适应调整检索窗口长度与注意力稀疏化方案。在工业级模型部署中，该数据集还赋能了服务质量监控：通过测量部署前后模型权重量化（如NF4精度）对γ指数的影响范围，开发者能够量化轻量化变换对注意力质量的具体损伤，并据此做出数据格式与压缩精度的权衡决策。

数据集最近研究