bergson-magic-scores-gpt-2
收藏Hugging Face2026-05-08 更新2026-05-09 收录
下载链接:
https://huggingface.co/datasets/EleutherAI/bergson-magic-scores-gpt-2
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含针对在Salesforce/wikitext数据集上微调的GPT-2模型的每文档MAGIC归因分数。这些分数通过bergson归因工具包的MAGIC子命令生成,计算了每个训练文档对模型在特定测试示例上输出的影响。数据集包含一个形状为(36718,)的torch.float32张量文件scores.pt,以及验证结果的CSV文件。验证结果表明,MAGIC分数与留k出训练损失差异之间存在高度相关性(Spearman ρ = +0.9731)。数据集适用于研究模型归因和训练数据影响分析等任务。
提供机构:
EleutherAI
创建时间:
2026-05-08
搜集汇总
数据集介绍

构建方式
该数据集基于EleutherAI开发的bergson归因工具包中的MAGIC子命令构建,针对在Salesforce/wikitext数据的wikitext-2-raw-v1训练集上微调的GPT-2模型。构建过程中,以测试集的第三个样本作为查询,通过反向传播整个训练轨迹,计算每个训练文档d对查询损失的一阶泰勒展开偏导数∂(L_query)/∂(w_d),以量化移除该文档对查询损失的潜在影响。最终生成一个形状为(36718,)的torch.float32张量,索引对应原始训练集行位置,不足2个token的行的分数被置为零。
特点
数据集的核心特点在于其归因分数的精确性和验证可靠性。通过随机策略对100个子集进行留出验证,MAGIC分数与训练损失差异的Spearman相关系数高达+0.9731,Pearson相关系数达+0.9724,p值极低,表明分数与模型实际影响高度一致。此外,排序策略验证下Spearman ρ可达+0.9926,进一步证实分数的稳健性。数据集支持单文档级别的归因分析,为理解训练数据对模型行为的影响提供了量化依据。
使用方法
数据集以scores.pt文件提供,可通过PyTorch轻松加载:使用torch.load('scores.pt', map_location='cpu', weights_only=True)加载张量,其形状为(36718,),每个元素对应原始wikitext-2训练集行位置的归因分数。用户可基于这些分数进行训练数据影响力分析、数据筛选或模型行为解释等任务。详情页还提供了summary.csv和validation.csv文件,分别记录整体验证指标和子集留出验证的详细结果,便于结果复现与深入分析。
背景与挑战
背景概述
在自然语言处理领域,理解训练数据对模型行为的影响是解释性和可信赖人工智能的核心议题。该数据集名为bergson-magic-scores-gpt-2,由EleutherAI团队于近期开发,旨在通过MAGIC(Model-Attribution-via-Gradient-Influence-Computation)方法量化训练文档对语言模型输出的归因贡献。核心研究问题是如何计算训练过程中每个文档对模型在特定测试样本上损失的一阶泰勒展开影响,从而揭示单个训练实例的贡献强度。该数据集基于在Wikitext-2上微调的GPT-2模型,对单一测试查询执行归因,并采用随机子集留出验证策略,在100个子集上取得了高达+0.9731的Spearman相关系数,验证了其归因方法的有效性。这一工作为大规模语言模型的可解释性研究提供了重要工具,推动了数据归因领域的实证进展。
当前挑战
该数据集面临的核心挑战源于归因方法的精确性与计算成本之间的平衡。首先,在领域问题层面,MAGIC方法需要精确估计梯度反传过程中的高维曲线,但GPT-2模型参数规模巨大(1.24亿以上),导致计算每个训练文档的影响在数值稳定性与内存开销上存在严峻障碍。其次,构建过程中遇到的关键挑战包括:数据清洗时需过滤长度不足2个token的训练行(共36718行),避免低质量样本干扰归因分布;验证策略需兼顾随机性与代表性,尽管随机策略已获得高相关性,但排序策略验证的差异(ρ=+0.9926)暗示了子集选择偏差对评估结果的影响。此外,多项式学习率调度与多节点分布式训练(4节点×4进程)增加了实验复现的协调难度,确保梯度轨迹的精确回溯成为方法论上的显著挑战。
常用场景
经典使用场景
在自然语言处理与可解释人工智能交汇的研究领域中,bergson-magic-scores-gpt-2数据集被广泛应用于训练数据归因(training data attribution)任务的基准评测。该数据集基于GPT-2模型在Wikitext-2语料上的微调过程,通过MAGIC算法为每一条训练文档计算对特定查询样本损失的泰勒一阶贡献值,从而量化各训练样本对模型预测行为的影响力。研究者常利用该数据集验证归因方法在语言模型上的有效性,例如通过留一法(leave-one-out)或留k法(leave-k-out)重训练实验,对比归因分数与实际模型性能变化之间的相关性,以此评估归因方法的准确性与鲁棒性。
解决学术问题
该数据集直面深度学习可解释性领域的一个核心挑战:如何高效且准确地追溯训练数据对模型预测的因果影响。传统的留出法重训练(retraining-based)虽然直观,但计算成本极高;而基于梯度的归因方法虽快,却缺乏严格的因果验证。bergson-magic-scores-gpt-2通过提供预计算的精确归因分数与配套的重训练验证结果,弥补了归因理论与实证之间的鸿沟。其意义在于,使研究者能够系统性地比较不同归因算法的优劣,推动从启发式归因向可验证、可量化的因果归因框架演进,进而促进模型可解释性、数据清洗、公平性与反事实分析等方向的学术进展。
衍生相关工作
围绕bergson-magic-scores-gpt-2数据集及其背后的MAGIC归因方法,已有若干经典工作涌现。MAGIC方法本身作为基于影响函数(influence functions)的一种高效近似,启发了后续如TRAK(Tracing with the Randomly-projected After Kernel)等更低计算复杂度的归因方案。该数据集的验证范式——利用留k-out重训练计算真实损失变化并与归因分数求相关——已经成为评估训练数据归因方法的通用标准流程。后续工作如DataInf、Influence Function with Dropout等均参考此验证框架来报告其方法的有效性。此外,该数据集也催生了针对大型语言模型(LLM)的归因研究,推动了从静态归因到动态、多查询归因的技术演进。
以上内容由遇见数据集搜集并总结生成



