five

New York Times articles dataset

收藏
github2025-03-21 更新2025-03-23 收录
下载链接:
https://github.com/AbhilashaRavichander/information-probing
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含从GPT-4中恢复的《纽约时报》文章,用于评估识别训练数据的方法的性能。

This dataset comprises New York Times articles recovered from GPT-4, and is employed to evaluate the performance of methods for identifying training data.
创建时间:
2025-03-14
原始信息汇总

数据集概述

基本信息

数据集内容

  • 数据来源:
    • Memorized Training Data: 来自《纽约时报》诉讼案Exhibit-J中的示例(label=1)。
    • Non-Member Data: 2023年爬取的CNN文章摘录(label=0)。
  • 数据字段:
    • Snippet: 文章内容。
    • Prefix: 根据Exhibit-J中的证据提供给模型的前缀。
    • Completion: 前缀后的原始文章内容。

数据集用途

  • 主要用途: 评估识别记忆训练数据或推断成员资格的方法。
  • 适用模型: 2023年之前发布的OpenAI模型。

相关方法

  • 信息引导探测(information-guided probing): 用于识别完全黑盒专有LLM(如GPT-4)记忆的训练数据。
  • 参考模型: bert-base-uncased(可修改为其他兼容模型)。

引用信息

bibtex @misc{ravichander2025informationguidedidentificationtrainingdata, title={Information-Guided Identification of Training Data Imprint in (Proprietary) Large Language Models}, author={Abhilasha Ravichander and Jillian Fisher and Taylor Sorensen and Ximing Lu and Yuchen Lin and Maria Antoniak and Niloofar Mireshghallah and Chandra Bhagavatula and Yejin Choi}, year={2025}, eprint={2503.12072}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2503.12072}, }

联系方式

  • 联系邮箱: aravicha[AT]cs.washington.edu
搜集汇总
数据集介绍
main_image_url
构建方式
New York Times articles数据集的构建基于信息引导探测方法,旨在识别大型语言模型(如GPT-4)中记忆的训练数据。该方法通过分析文本中难以仅凭上下文预测的词汇,推断模型是否依赖记忆的训练数据进行预测。数据集包含从GPT-4中恢复的《纽约时报》文章,以及2023年抓取的CNN文章作为非成员数据,用于评估训练数据识别方法的性能。
使用方法
使用该数据集时,研究人员可通过信息引导探测方法提取高惊讶度词汇,评估模型对训练数据的记忆程度。具体操作包括运行代码以计算词汇的惊讶度分布,并根据设定的概率和排名阈值提取高惊讶度词汇。此外,用户可替换参考模型,以适应不同的研究需求。数据集的使用不仅限于评估模型记忆,还可用于研究数据污染和数据选择等关键问题。
背景与挑战
背景概述
New York Times articles dataset 是由 Abhilasha Ravichander 等研究人员于2025年创建,旨在解决大型语言模型(LLMs)训练数据透明度不足的问题。该数据集的核心研究问题是通过信息引导探测方法,识别被商业LLMs(如GPT-4)记忆的训练数据。这一研究不仅揭示了LLMs训练数据的潜在来源,还为科学界提供了评估数据记忆和成员推断方法的新基准。该数据集对自然语言处理领域的研究具有重要影响,特别是在数据污染、数据选择以及版权侵权等问题的研究中。
当前挑战
New York Times articles dataset 面临的挑战主要集中在两个方面。首先,该数据集旨在解决LLMs训练数据透明度不足的问题,但如何在不访问模型权重或令牌概率的情况下,准确识别被记忆的训练数据仍是一个技术难题。其次,在数据集的构建过程中,研究人员需要从大量文本中筛选出具有代表性的样本,并确保这些样本能够有效反映LLMs的记忆行为。此外,数据集的合法性和版权问题也是构建过程中不可忽视的挑战,特别是在涉及商业LLMs和新闻文章的情况下。
常用场景
经典使用场景
New York Times articles dataset 主要用于评估大型语言模型(LLMs)在训练数据记忆方面的表现。通过该数据集,研究人员可以测试模型是否能够准确预测高难度的上下文无关词汇,从而判断模型是否记忆了特定的训练数据。这一场景在模型透明度和数据隐私保护研究中尤为重要。
解决学术问题
该数据集解决了大型语言模型训练数据透明度不足的问题。通过信息引导探测方法,研究人员能够在无需访问模型权重或概率分布的情况下,识别出模型记忆的训练数据。这一方法不仅有助于检测版权侵权问题,还为数据作者提供了更多的控制权,推动了数据污染和数据选择等关键问题的科学研究。
实际应用
在实际应用中,New York Times articles dataset 被广泛用于法律和伦理审查领域。例如,在涉及版权纠纷的案件中,该数据集可以帮助识别模型是否未经授权使用了受版权保护的内容。此外,该数据集还可用于评估模型在生成文本时的数据依赖性,为模型优化提供依据。
数据集最近研究
最新研究方向
近年来,随着大型语言模型(LLMs)在自然语言处理领域的广泛应用,其训练数据的透明性问题逐渐成为研究热点。New York Times articles dataset作为一项重要的数据集,被用于探索信息引导探测方法,旨在识别黑箱专有LLMs(如GPT-4)中记忆的训练数据。这一研究方向不仅揭示了模型对训练数据的依赖程度,还为解决版权侵权、数据污染等关键问题提供了新的视角。通过分析模型对高难度词汇的预测能力,研究者能够推断出模型是否记忆了特定数据,从而为LLMs的透明性和可解释性研究提供了重要工具。这一方法的应用不仅推动了LLMs的科学评估,还为数据作者权益的保护提供了技术支撑。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作