New York Times articles dataset

github2025-03-21 更新2025-03-23 收录

下载链接：

https://github.com/AbhilashaRavichander/information-probing

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含从GPT-4中恢复的《纽约时报》文章，用于评估识别训练数据的方法的性能。

This dataset comprises New York Times articles recovered from GPT-4, and is employed to evaluate the performance of methods for identifying training data.

创建时间：

2025-03-14

原始信息汇总

数据集概述

基本信息

数据集名称: New York Times articles allegedly recovered from GPT-4
数据集链接: https://huggingface.co/datasets/lasha-nlp/NYT_Memorization
相关论文: Information-Guided Identification of Training Data Imprint in (Proprietary) Large Language Models
作者: Abhilasha Ravichander, Jillian Fisher, Taylor Sorensen, Ximing Lu, Yuchen Lin, Maria Antoniak, Niloofar Mireshghallah, Chandra Bhagavatula, Yejin Choi

数据集内容

数据来源:
- Memorized Training Data: 来自《纽约时报》诉讼案Exhibit-J中的示例（label=1）。
- Non-Member Data: 2023年爬取的CNN文章摘录（label=0）。
数据字段:
- Snippet: 文章内容。
- Prefix: 根据Exhibit-J中的证据提供给模型的前缀。
- Completion: 前缀后的原始文章内容。

数据集用途

主要用途: 评估识别记忆训练数据或推断成员资格的方法。
适用模型: 2023年之前发布的OpenAI模型。

引用信息

bibtex @misc{ravichander2025informationguidedidentificationtrainingdata, title={Information-Guided Identification of Training Data Imprint in (Proprietary) Large Language Models}, author={Abhilasha Ravichander and Jillian Fisher and Taylor Sorensen and Ximing Lu and Yuchen Lin and Maria Antoniak and Niloofar Mireshghallah and Chandra Bhagavatula and Yejin Choi}, year={2025}, eprint={2503.12072}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2503.12072}, }

联系方式

联系邮箱: aravicha[AT]cs.washington.edu

搜集汇总

数据集介绍

构建方式

New York Times articles数据集的构建基于信息引导探测方法，旨在识别大型语言模型（如GPT-4）中记忆的训练数据。该方法通过分析文本中难以仅凭上下文预测的词汇，推断模型是否依赖记忆的训练数据进行预测。数据集包含从GPT-4中恢复的《纽约时报》文章，以及2023年抓取的CNN文章作为非成员数据，用于评估训练数据识别方法的性能。

使用方法

使用该数据集时，研究人员可通过信息引导探测方法提取高惊讶度词汇，评估模型对训练数据的记忆程度。具体操作包括运行代码以计算词汇的惊讶度分布，并根据设定的概率和排名阈值提取高惊讶度词汇。此外，用户可替换参考模型，以适应不同的研究需求。数据集的使用不仅限于评估模型记忆，还可用于研究数据污染和数据选择等关键问题。

背景与挑战

背景概述

New York Times articles dataset 是由 Abhilasha Ravichander 等研究人员于2025年创建，旨在解决大型语言模型（LLMs）训练数据透明度不足的问题。该数据集的核心研究问题是通过信息引导探测方法，识别被商业LLMs（如GPT-4）记忆的训练数据。这一研究不仅揭示了LLMs训练数据的潜在来源，还为科学界提供了评估数据记忆和成员推断方法的新基准。该数据集对自然语言处理领域的研究具有重要影响，特别是在数据污染、数据选择以及版权侵权等问题的研究中。

当前挑战

New York Times articles dataset 面临的挑战主要集中在两个方面。首先，该数据集旨在解决LLMs训练数据透明度不足的问题，但如何在不访问模型权重或令牌概率的情况下，准确识别被记忆的训练数据仍是一个技术难题。其次，在数据集的构建过程中，研究人员需要从大量文本中筛选出具有代表性的样本，并确保这些样本能够有效反映LLMs的记忆行为。此外，数据集的合法性和版权问题也是构建过程中不可忽视的挑战，特别是在涉及商业LLMs和新闻文章的情况下。

常用场景

经典使用场景

New York Times articles dataset 主要用于评估大型语言模型（LLMs）在训练数据记忆方面的表现。通过该数据集，研究人员可以测试模型是否能够准确预测高难度的上下文无关词汇，从而判断模型是否记忆了特定的训练数据。这一场景在模型透明度和数据隐私保护研究中尤为重要。

解决学术问题

该数据集解决了大型语言模型训练数据透明度不足的问题。通过信息引导探测方法，研究人员能够在无需访问模型权重或概率分布的情况下，识别出模型记忆的训练数据。这一方法不仅有助于检测版权侵权问题，还为数据作者提供了更多的控制权，推动了数据污染和数据选择等关键问题的科学研究。

实际应用

在实际应用中，New York Times articles dataset 被广泛用于法律和伦理审查领域。例如，在涉及版权纠纷的案件中，该数据集可以帮助识别模型是否未经授权使用了受版权保护的内容。此外，该数据集还可用于评估模型在生成文本时的数据依赖性，为模型优化提供依据。

数据集最近研究