unlearning-cleanslate/eval-16-debug-llama-3_1-8b-simnpo-gentle-baseline-target-100-localtrain-checkpoint-1

Name: unlearning-cleanslate/eval-16-debug-llama-3_1-8b-simnpo-gentle-baseline-target-100-localtrain-checkpoint-1
Creator: unlearning-cleanslate
Published: 2026-04-30 12:26:40
License: 暂无描述

Hugging Face2026-04-30 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/unlearning-cleanslate/eval-16-debug-llama-3_1-8b-simnpo-gentle-baseline-target-100-localtrain-checkpoint-1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个特征，主要用于分析文本窗口的记忆情况。特征包括文本长度字符数、窗口数量、记忆窗口数量、记忆分数、覆盖率、各种概率统计值（最大、平均、中位数、最小、标准差）、最佳窗口索引及其相关属性（概率、种子、目标、起始和结束字符位置）、评估模型、窗口大小、步长、评估阈值等。此外，还包含每个窗口的详细信息（如结束字符、索引、是否记忆、对数概率、目标令牌数、概率、种子、起始字符、目标、目标对数概率列表和目标排名列表）以及内容ID、标题、创作者和年份。数据集分为训练集，包含4663个样本，总大小为2665222676字节。

The dataset includes multiple features primarily used for analyzing the memorization of text windows. Features include text length in characters, number of windows, number of memorized windows, memorized fraction, coverage, various probability statistics (max, mean, median, min, std), best window index and its related attributes (probability, seed, target, start and end character positions), evaluation model, window size, stride, evaluation threshold, etc. Additionally, it contains detailed information for each window (such as end character, index, is memorized, log probability, number of target tokens, probability, seed, start character, target, target log probabilities list, and target ranks list) as well as content ID, title, creators, and year. The dataset is split into a training set with 4663 examples and a total size of 2665222676 bytes.

提供机构：

unlearning-cleanslate

搜集汇总

数据集介绍

构建方式

该数据集的构建基于对Llama-3.1-8B模型在SimNPO策略下微调后的检查点进行评测。通过将输入文本按固定窗口大小和步长分割为多个窗口，逐一计算每个窗口内目标序列的生成概率（p_z），并据此判定窗口是否被模型记忆。在此基础上，筛选出具有最大p_z值的窗口作为最佳记忆窗口，记录其起始字符、目标文本及随机种子。数据集涵盖了文本长度、窗口数量、记忆窗口比例、覆盖率、p_z统计量（如均值、中位数、标准差）等多维特征，并保留了每个窗口的详细元数据，包括对数概率、目标令牌数量及排序信息。

特点

该数据集的一大特色在于其细粒度的记忆评估能力，不仅提供了整体记忆分数（memorized_fraction）和覆盖率，还通过滑动窗口机制精确捕捉模型在不同文本片段上的记忆行为。每个样本包含多个窗口的详细记录，使得研究者可以分析模型对特定文本片段的记忆程度。此外，数据集纳入了模型评估元数据（如eval_model、window_size、eval_threshold），便于复现实验。内容层面，每条数据关联了来源标识（content_id）、标题、创作者和年份，为跨文本类型的记忆分析提供了丰富的上下文信息。

使用方法

使用时，可直接从HuggingFace加载该数据集，默认提供训练集分割，包含4663个样本。研究者可基于memorized_fraction和coverage字段评估模型的整体记忆水平，或通过遍历windows列表中的每个窗口的is_memorized和p_z值，开展针对特定文本片段的记忆分析。对于最佳记忆窗口，可直接利用best_window_target字段提取模型最难遗忘的文本序列。数据集支持通过content_id等字段进行分组或过滤，以便于对比不同来源或年代文本的记忆表现。

背景与挑战

背景概述

在大规模语言模型（LLM）训练与部署的浪潮中，模型记忆效应（memorization）成为衡量模型泛化能力与隐私风险的核心议题。该数据集由研究者在2024年基于Llama-3.1-8B模型经SimNPO策略微调后构建，旨在系统评估模型在特定窗口粒度下的记忆行为。通过捕获文本片段的对数概率、记忆窗口比例及覆盖度等指标，该数据集为理解模型如何记忆训练数据中的序列模式提供了结构化视角。其影响力体现在，它推动了从简单定性判断向基于概率分布的定量记忆评估的范式转变，为后续模型安全与隐私保护研究奠定了数据基础。

当前挑战

领域内核心挑战在于如何精确区分模型对训练数据的有益泛化与过度记忆，现有指标如记忆分数（memorized_fraction）虽可量化记忆程度，却难以界定其与性能、鲁棒性间的阈值关系。构建过程面临双重困难：其一，窗口滑动的步长与大小直接影响记忆检测的粒度与计算效率，需在覆盖完整性与资源开销间寻求平衡；其二，评估模型的选择（如使用不同阶段checkpoint）导致记忆结果的可比性下降，跨检查点的稳定性分析仍缺乏标准化准则。

常用场景

经典使用场景

在大型语言模型（LLM）的研究中，评估模型是否在训练过程中记忆了特定文本片段是一项关键任务。该数据集专为检测和量化模型对训练数据的记忆现象而设计，通过滑动窗口技术将文本切分为连续片段，并计算每个片段在模型下的对数概率与统计显著性，从而判断模型是否对该内容存在记忆。其典型使用场景是评估经过微调或对齐优化后的模型（如基于SimnPO算法训练的Llama 3.1 8B）在特定领域文本上的记忆程度，为理解模型泛化能力与过拟合边界提供量化工具。

衍生相关工作

围绕该数据集所定义的评价范式，衍生出了一系列重要的研究工作。部分学者基于其窗口化概率评估方法，提出了更高效的记忆追踪算法，如引入自适应窗口长度或动态阈值策略；另一些工作则结合成员推断攻击（Membership Inference Attack）技术，扩展该框架以识别模型是否在特定样本上被训练。此外，该数据集还推动了“机器遗忘”领域的实验基准化，使得不同遗忘算法（如梯度升降、模型剪辑）的效果可以在此框架下进行公平比较，加速了从记忆检测到遗忘验证的完整技术闭环的构建。

数据集最近研究