DATE-LM

Name: DATE-LM
Creator: 卡内基梅隆大学
Published: 2025-07-13 07:29:56
License: 暂无描述

arXiv2025-07-13 更新2025-07-16 收录

下载链接：

https://github.com/DataAttributionEval/DATE-LM

下载链接

链接失效反馈

官方服务：

资源简介：

DATE-LM是一个统一的基准，用于通过实际应用评估数据归属方法。它通过三个关键任务——训练数据选择、毒性/偏见过滤和事实归属来衡量归属质量。DATE-LM旨在易于使用，使研究人员能够在各种任务和LLM架构上进行大规模评估。此外，我们使用DATE-LM对现有的数据归属方法进行了大规模评估。我们的发现表明，没有一种方法在所有任务中都占主导地位，数据归属方法与更简单的基线之间存在权衡，并且方法性能对特定任务的评估设计敏感。最后，我们发布了一个公共排行榜，以便快速比较方法并促进社区参与。

DATE-LM is a unified benchmark for evaluating data attribution methods through real-world applications. It measures attribution quality via three core tasks: training data selection, toxicity/bias filtering, and fact attribution. DATE-LM is designed to be user-friendly, enabling researchers to conduct large-scale evaluations across diverse tasks and LLM architectures. Additionally, we performed a large-scale evaluation of existing data attribution methods using DATE-LM. Our findings reveal that no single method dominates across all tasks, there exists a trade-off between data attribution methods and simpler baselines, and method performance is sensitive to the evaluation design of specific tasks. Finally, we have released a public leaderboard for rapid method comparison and to foster community engagement.

提供机构：

卡内基梅隆大学

创建时间：

2025-07-13

原始信息汇总

DATE-LM: Data Attribution Evaluation Benchmark 数据集概述

核心特性

三大核心评估任务：
- 训练数据选择（预训练和微调）
- 毒性/偏见过滤
- 事实归因
模块化流程支持归因评分、子集选择和任务评估
即插即用支持新的归因方法
预训练和微调模型检查点，用于重现性和效率
公共排行榜用于标准化基准测试和社区参与

环境设置

使用env.yml和requirements.txt文件安装依赖： bash conda env create --file env.yml --name myenv conda activate myenv pip install -r requirements.txt

评估流程

下载数据集和模型：选择任务并按照准备步骤下载数据集和模型。
运行归因评分：定义评分函数，输入模型检查点、参考数据集和训练数据集，输出训练数据集中每个数据点的归因评分。
运行任务特定评估：执行所选任务的评估流程。

详细文档

排行榜

提交方法：https://huggingface.co/spaces/DataAttributionEval/DATE-LM-Leaderboard

引用文献

@inproceedings{NEURIPS2024_f7326833
@misc{ivisondata2025
@inproceedings{yu2024mates

搜集汇总

数据集介绍

构建方式

DATE-LM数据集的构建采用了模块化设计，通过统一评估流程整合了多种数据归因方法。研究者首先选定训练集D和参考集Dref，基于任务类型（如预训练数据选择、毒性/偏见过滤或事实归因）进行配置。通过归因评分函数τ计算训练样本对参考集的影响分数，随后采用Top-k选择或概率采样构建评估子集Ds。该框架支持灵活扩展新方法，并提供预训练模型检查点以降低计算成本，确保评估的标准化与可复现性。

特点

DATE-LM的核心特点体现在其应用导向的多样化任务设计。数据集涵盖预训练数据选择、毒性/偏见过滤及事实归因三大场景，每类任务均针对实际LLM应用中的关键需求。例如，毒性过滤任务引入安全对齐干扰数据以增强评估鲁棒性，而事实归因任务通过实体替换消除词汇重叠偏差。数据集还提供公开排行榜，支持跨方法、模型架构的横向比较，并附带详细的计算开销分析，凸显不同方法在性能与效率间的权衡。

使用方法

使用DATE-LM时，研究者首先选择目标任务和归因方法，加载预配置的数据集与模型。归因评分阶段自动生成样本相关性分数，子集选择环节支持自定义策略（如Top-k阈值）。任务评估模块提供标准化指标，包括AUPRC（毒性检测）、Recall@50（事实归因）等。用户可通过Hugging Face提交结果至排行榜，系统将自动生成PR请求以确保透明度。数据集还提供训练脚本和模型检查点，便于复现或扩展实验。

背景与挑战

背景概述

DATE-LM（Data Attribution Evaluation in Language Models）是由卡内基梅隆大学和密歇根大学的研究团队于2025年提出的一个统一基准，旨在系统评估大型语言模型（LLMs）中的数据归因方法。该数据集聚焦于量化训练数据对模型输出的影响，核心研究问题包括训练数据选择、毒性/偏见过滤以及事实归因三大关键任务。DATE-LM通过模块化评估流程、预训练模型检查点和公开排行榜，显著降低了数据归因研究的计算门槛，并促进了领域内的可复现性和标准化。其影响力体现在为LLM的数据治理、模型可解释性和数据定价等应用提供了方法论基础，填补了现有评估体系在LLM-centric场景下的空白。

当前挑战

DATE-LM面临的挑战可分为领域问题与构建挑战两方面。在领域问题上：1）数据归因方法需应对LLM训练数据规模庞大且动态演变的特性，现有方法在跨任务泛化性（如毒性检测与事实归因的权衡）和计算效率（如二阶近似方法的可扩展性）存在显著差异；2）简单非归因基线方法（如BM25）在部分任务中表现媲美复杂归因方法，引发对归因技术必要边界的重新审视。在构建过程中：1）评估设计需平衡任务特异性（如打破词汇重叠的对抗性事实归因）与跨任务可比性；2）安全对齐数据的引入导致归因方法在异构环境下性能骤降，暴露出现有方法对语义-意图解耦的敏感性；3）模型重训练协议的高计算成本迫使采用早期检查点等近似策略，可能影响评估的全面性。

常用场景

经典使用场景

DATE-LM作为大型语言模型（LLM）数据归因评估的统一基准，在训练数据选择、毒性/偏见过滤以及事实归因等关键任务中展现了其经典应用场景。通过模块化评估流程和预训练模型检查点，DATE-LM为研究人员提供了一个高效且可扩展的平台，用于系统评估不同数据归因方法在多样化LLM应用中的表现。例如，在训练数据选择任务中，DATE-LM支持从预训练到微调的全流程评估，帮助优化数据筛选策略以提升模型性能。

衍生相关工作

围绕DATE-LM的基准研究催生了多项经典工作。在方法层面，MATES和LESS等新型数据归因算法通过DATE-LM验证了其高效性和适用性。应用方面，GradSafe等安全检测工具借鉴了DATE-LM的异质过滤设置来提升鲁棒性。数据集领域，ROME和Ftrace等事实归因基准通过与DATE-LM的对比研究优化了评估设计。这些衍生工作共同推动了数据归因技术在模型可解释性、安全对齐及数据估值等方向的发展。

数据集最近研究