five

DATE-LM

收藏
arXiv2025-07-13 更新2025-07-16 收录
下载链接:
https://github.com/DataAttributionEval/DATE-LM
下载链接
链接失效反馈
官方服务:
资源简介:
DATE-LM是一个统一的基准,用于通过实际应用评估数据归属方法。它通过三个关键任务——训练数据选择、毒性/偏见过滤和事实归属来衡量归属质量。DATE-LM旨在易于使用,使研究人员能够在各种任务和LLM架构上进行大规模评估。此外,我们使用DATE-LM对现有的数据归属方法进行了大规模评估。我们的发现表明,没有一种方法在所有任务中都占主导地位,数据归属方法与更简单的基线之间存在权衡,并且方法性能对特定任务的评估设计敏感。最后,我们发布了一个公共排行榜,以便快速比较方法并促进社区参与。

DATE-LM is a unified benchmark for evaluating data attribution methods through real-world applications. It measures attribution quality via three core tasks: training data selection, toxicity/bias filtering, and fact attribution. DATE-LM is designed to be user-friendly, enabling researchers to conduct large-scale evaluations across diverse tasks and LLM architectures. Additionally, we performed a large-scale evaluation of existing data attribution methods using DATE-LM. Our findings reveal that no single method dominates across all tasks, there exists a trade-off between data attribution methods and simpler baselines, and method performance is sensitive to the evaluation design of specific tasks. Finally, we have released a public leaderboard for rapid method comparison and to foster community engagement.
提供机构:
卡内基梅隆大学
创建时间:
2025-07-13
原始信息汇总

DATE-LM: Data Attribution Evaluation Benchmark 数据集概述

核心特性

  • 三大核心评估任务
    • 训练数据选择(预训练和微调)
    • 毒性/偏见过滤
    • 事实归因
  • 模块化流程支持归因评分、子集选择和任务评估
  • 即插即用支持新的归因方法
  • 预训练和微调模型检查点,用于重现性和效率
  • 公共排行榜用于标准化基准测试和社区参与

环境设置

  • 使用env.ymlrequirements.txt文件安装依赖: bash conda env create --file env.yml --name myenv conda activate myenv pip install -r requirements.txt

评估流程

  1. 下载数据集和模型:选择任务并按照准备步骤下载数据集和模型。
  2. 运行归因评分:定义评分函数,输入模型检查点、参考数据集和训练数据集,输出训练数据集中每个数据点的归因评分。
  3. 运行任务特定评估:执行所选任务的评估流程。

详细文档

排行榜

  • 提交方法:https://huggingface.co/spaces/DataAttributionEval/DATE-LM-Leaderboard

引用文献

  • @inproceedings{NEURIPS2024_f7326833
  • @misc{ivisondata2025
  • @inproceedings{yu2024mates
搜集汇总
数据集介绍
main_image_url
构建方式
DATE-LM数据集的构建采用了模块化设计,通过统一评估流程整合了多种数据归因方法。研究者首先选定训练集D和参考集Dref,基于任务类型(如预训练数据选择、毒性/偏见过滤或事实归因)进行配置。通过归因评分函数τ计算训练样本对参考集的影响分数,随后采用Top-k选择或概率采样构建评估子集Ds。该框架支持灵活扩展新方法,并提供预训练模型检查点以降低计算成本,确保评估的标准化与可复现性。
特点
DATE-LM的核心特点体现在其应用导向的多样化任务设计。数据集涵盖预训练数据选择、毒性/偏见过滤及事实归因三大场景,每类任务均针对实际LLM应用中的关键需求。例如,毒性过滤任务引入安全对齐干扰数据以增强评估鲁棒性,而事实归因任务通过实体替换消除词汇重叠偏差。数据集还提供公开排行榜,支持跨方法、模型架构的横向比较,并附带详细的计算开销分析,凸显不同方法在性能与效率间的权衡。
使用方法
使用DATE-LM时,研究者首先选择目标任务和归因方法,加载预配置的数据集与模型。归因评分阶段自动生成样本相关性分数,子集选择环节支持自定义策略(如Top-k阈值)。任务评估模块提供标准化指标,包括AUPRC(毒性检测)、Recall@50(事实归因)等。用户可通过Hugging Face提交结果至排行榜,系统将自动生成PR请求以确保透明度。数据集还提供训练脚本和模型检查点,便于复现或扩展实验。
背景与挑战
背景概述
DATE-LM(Data Attribution Evaluation in Language Models)是由卡内基梅隆大学和密歇根大学的研究团队于2025年提出的一个统一基准,旨在系统评估大型语言模型(LLMs)中的数据归因方法。该数据集聚焦于量化训练数据对模型输出的影响,核心研究问题包括训练数据选择、毒性/偏见过滤以及事实归因三大关键任务。DATE-LM通过模块化评估流程、预训练模型检查点和公开排行榜,显著降低了数据归因研究的计算门槛,并促进了领域内的可复现性和标准化。其影响力体现在为LLM的数据治理、模型可解释性和数据定价等应用提供了方法论基础,填补了现有评估体系在LLM-centric场景下的空白。
当前挑战
DATE-LM面临的挑战可分为领域问题与构建挑战两方面。在领域问题上:1)数据归因方法需应对LLM训练数据规模庞大且动态演变的特性,现有方法在跨任务泛化性(如毒性检测与事实归因的权衡)和计算效率(如二阶近似方法的可扩展性)存在显著差异;2)简单非归因基线方法(如BM25)在部分任务中表现媲美复杂归因方法,引发对归因技术必要边界的重新审视。在构建过程中:1)评估设计需平衡任务特异性(如打破词汇重叠的对抗性事实归因)与跨任务可比性;2)安全对齐数据的引入导致归因方法在异构环境下性能骤降,暴露出现有方法对语义-意图解耦的敏感性;3)模型重训练协议的高计算成本迫使采用早期检查点等近似策略,可能影响评估的全面性。
常用场景
经典使用场景
DATE-LM作为大型语言模型(LLM)数据归因评估的统一基准,在训练数据选择、毒性/偏见过滤以及事实归因等关键任务中展现了其经典应用场景。通过模块化评估流程和预训练模型检查点,DATE-LM为研究人员提供了一个高效且可扩展的平台,用于系统评估不同数据归因方法在多样化LLM应用中的表现。例如,在训练数据选择任务中,DATE-LM支持从预训练到微调的全流程评估,帮助优化数据筛选策略以提升模型性能。
衍生相关工作
围绕DATE-LM的基准研究催生了多项经典工作。在方法层面,MATES和LESS等新型数据归因算法通过DATE-LM验证了其高效性和适用性。应用方面,GradSafe等安全检测工具借鉴了DATE-LM的异质过滤设置来提升鲁棒性。数据集领域,ROME和Ftrace等事实归因基准通过与DATE-LM的对比研究优化了评估设计。这些衍生工作共同推动了数据归因技术在模型可解释性、安全对齐及数据估值等方向的发展。
数据集最近研究
最新研究方向
随着大语言模型(LLM)的广泛应用,数据归因方法(Data Attribution Methods)成为研究热点,旨在量化训练数据对模型输出的影响。DATE-LM作为首个面向LLM的统一基准,通过三大核心任务——训练数据筛选、毒性/偏见过滤和事实归因,系统评估了现有方法的性能。前沿研究表明:1)不同任务间不存在绝对优势方法,梯度相似性方法(如LESS)在毒性检测中表现优异,而简单基线(如BM25)在数据筛选中可能媲美复杂归因方法;2)评估设计显著影响方法性能,特别是在引入安全对齐数据的异构毒性检测场景中,归因方法性能下降达40%;3)事实归因任务通过反事实语义改写有效解决了传统基准的词汇重叠偏差,使归因方法相较检索基线的Recall@50提升超20%。该数据集推动了可解释AI、安全对齐及数据估值等方向的发展,其模块化设计和公开排行榜为社区提供了标准化评估框架。
相关研究论文
  • 1
    DATE-LM: Benchmarking Data Attribution Evaluation for Large Language Models卡内基梅隆大学 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作