EleutherAI/bergson-magic-scores-gpt-2

Name: EleutherAI/bergson-magic-scores-gpt-2
Creator: EleutherAI
Published: 2026-05-08 07:37:00
License: 暂无描述

Hugging Face2026-05-08 更新2026-05-10 收录

下载链接：

https://hf-mirror.com/datasets/EleutherAI/bergson-magic-scores-gpt-2

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含针对GPT-2模型在wikitext-2-raw-v1训练集上微调后的MAGIC属性分数。这些分数是通过bergson工具包的MAGIC子命令计算的，用于评估每个训练文档对查询损失的影响。数据集包含三个文件：scores.pt（存储分数张量）、summary.csv（存储相关性统计结果）和validation.csv（存储验证记录）。验证结果显示，Spearman和Pearson相关性非常高，表明分数与训练损失差异有很强的关联性。

This dataset contains MAGIC attribution scores derived from fine-tuning the GPT-2 model on the wikitext-2-raw-v1 training set. These scores are calculated using the MAGIC subcommand of the Bergson toolkit, which is used to assess the impact of each training document on query loss. The dataset consists of three files: scores.pt (which stores the score tensors), summary.csv (which stores the statistical correlation results), and validation.csv (which stores the validation records). The validation results demonstrate exceptionally high Spearman and Pearson correlations, confirming a strong association between the scores and training loss discrepancies.

提供机构：

EleutherAI

搜集汇总

数据集介绍

构建方式

该数据集通过伯格森归因工具包（bergson）的MAGIC子命令构建，针对在Wikitext-2数据集上微调的GPT-2模型，以单个测试样本为查询，计算每个训练文档对查询损失的梯度影响。具体而言，系统沿整个训练轨迹进行反向传播，得到每个训练文档d的一阶泰勒展开值∂(L_query)/∂(w_d)，量化移除该文档对查询损失的预期变化。训练配置包括2个轮次、多项式学习率调度、批大小256及分布式训练，最终输出形状为(36718,)的浮点张量，对应Wikitext-2训练集中每个原始行的归因分数。

特点

数据集的核心特点在于其高精度与强验证性：通过随机子集留出法验证，马格尼克得分与真实损失差值的斯皮尔曼相关系数达+0.9731，皮尔逊相关系数达+0.9724，p值均极低，证实了归因分数的可靠性。此外，数据集提供多个文件，包括主得分张量、汇总统计及完整的验证记录，便于用户复现与扩展分析。其创新性体现在直接衡量训练数据对模型行为的因果影响，为理解黑箱模型提供量化视角。

使用方法

用户可通过PyTorch框架快速加载得分文件，使用`torch.load('scores.pt', map_location='cpu', weights_only=True)`即可获得包含36718个条目的张量，每个条目对应Wikitext-2训练集中一个文档的归因分数。该数据集适用于影响函数分析、训练数据重要性评估及模型行为归因研究。用户亦可参考提供的YAML配置文件，在伯格森工具包中复现得分生成流程，或基于验证文件进一步探索不同子集策略下的归因效应。

背景与挑战

背景概述

该数据集诞生于对大语言模型可解释性研究的探索浪潮中，由EleutherAI团队基于其开发的bergson归因工具包构建。核心研究问题聚焦于量化训练数据中每个样本对模型推理结果的贡献程度，通过MAGIC（Model-Agnostic Gradient-based Influence Computation）方法，利用泰勒一阶展开计算训练损失相对于查询损失的梯度，从而评估移除特定训练文档对模型输出的影响。该数据集以GPT-2模型在wikitext-2-raw-v1训练集上的微调为基础，选取单个测试样本作为查询，生成了36718个训练文档的归因分数，为理解模型行为与训练数据之间的因果关系提供了重要工具，在模型可解释性领域具有开创性影响。

当前挑战

该数据集所解决的领域挑战在于，大语言模型内部决策机制的黑箱特性使得解释其行为极为困难，传统方法难以精确衡量单个训练样本对模型输出的影响。具体而言，构建过程中面临的挑战包括：MAGIC方法需要反向传播整个训练轨迹，计算量巨大，需借助分布式计算（4节点、每节点4进程）才能实现；实验中必须设计高效的留出验证策略，采用随机和排序两种采样方式对100个子集进行验证，以确保归因分数的可靠性；此外，需处理数据预处理中的过滤问题，如移除少于2个token的行，并将缺失位置置零以保持张量形状一致性，这些技术细节均增加了数据集构建的复杂度。

常用场景

经典使用场景

在可解释人工智能与训练数据归因领域，bergson-magic-scores-gpt-2数据集为研究者提供了一个评估语言模型训练数据重要性的基准。该数据集记录了GPT-2模型在wikitext-2语料上微调后，针对特定测试样本计算出的MAGIC归因分数，每个训练文档对应一个数值，反映了该文档对模型预测损失的泰勒一阶贡献。这一经典使用场景使研究者能够量化单条训练数据对模型行为的影响，从而深入理解模型决策的根源。通过该数据集，学术界得以标准化归因方法的验证流程，例如采用留一法或子集移除方式检验归因分数与实际损失变化之间的相关性强弱。

衍生相关工作

该数据集的诞生催生了多项衍生研究工作，主要集中在归因算法的效率改进与跨模型迁移性验证上。基于MAGIC方法所呈现的高相关性结果，后续研究进一步探索了线性化归因近似在Transformer架构中的加速实现，例如利用梯度缓存策略降低反向传播的计算开销。同时，该数据集作为验证基准，被用于对比不同归因方法（如TracIn、Influence Functions等）在GPT-2模型上的表现差异，推动了归因理论从简单线性模型向深度神经网络的延伸。部分工作还将其作为训练数据版权归属检测的评估工具，验证了归因分数在模型行为溯源中的实际效力。

数据集最近研究