unlearning-cleanslate/eval-20-debug-llama-3_1-8b-simnpo-gentle-igm-10b-target-100-localtrain-checkpoint-1

Name: unlearning-cleanslate/eval-20-debug-llama-3_1-8b-simnpo-gentle-igm-10b-target-100-localtrain-checkpoint-1
Creator: unlearning-cleanslate
Published: 2026-05-01 02:01:44
License: 暂无描述

Hugging Face2026-05-01 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/unlearning-cleanslate/eval-20-debug-llama-3_1-8b-simnpo-gentle-igm-10b-target-100-localtrain-checkpoint-1

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: text_length_chars dtype: int64 - name: num_windows dtype: int64 - name: memorized_windows dtype: int64 - name: memorized_fraction dtype: float64 - name: coverage dtype: float64 - name: max_p_z dtype: float64 - name: mean_p_z dtype: float64 - name: median_p_z dtype: float64 - name: min_p_z dtype: float64 - name: std_p_z dtype: float64 - name: best_window_idx dtype: int64 - name: best_window_p_z dtype: float64 - name: best_window_seed dtype: string - name: best_window_target dtype: string - name: best_window_start_char dtype: int64 - name: best_window_end_char dtype: int64 - name: eval_model dtype: string - name: window_size dtype: int64 - name: stride dtype: int64 - name: eval_threshold dtype: float64 - name: windows list: - name: end_char dtype: int64 - name: idx dtype: int64 - name: is_memorized dtype: bool - name: log_prob dtype: float64 - name: num_target_tokens dtype: int64 - name: p_z dtype: float64 - name: seed dtype: string - name: start_char dtype: int64 - name: target dtype: string - name: target_log_probs list: float64 - name: target_ranks list: int64 - name: content_id dtype: string - name: content_title dtype: string - name: content_creators dtype: string - name: content_year dtype: int64 splits: - name: train num_bytes: 2665218160 num_examples: 4663 download_size: 2672546509 dataset_size: 2665218160 configs: - config_name: default data_files: - split: train path: data/train-* ---

提供机构：

unlearning-cleanslate

搜集汇总

数据集介绍

构建方式

该数据集专为评估大语言模型记忆能力而构建，其设计根植于对模型生成文本中潜在记忆痕迹的定量分析。构建过程中，首先将原始文本依据预设的窗口大小与步长分割为连续且部分重叠的子片段，随后利用特定的评估模型（如llama-3_1-8b-simnpo变体）对每个片段进行推理。通过计算每个窗口内目标字符串的出现位置、概率与对数概率等统计量，判定该窗口是否被模型‘记忆’，从而生成结构化评估指标。数据集涵盖了从文本长度、窗口数量、记忆窗口比例到概率分布特征（如最大、最小、均值及标准差）等21项精细特征，每一条记录均来源于对一篇完整文档的深度剖析。

使用方法

该数据集以JSON格式存储，共包含4663个训练样本，适用于加载至HuggingFace Datasets库进行调用。研究者可通过指定config名称为‘default’并读取‘data/train-*’路径下的文件实现数据载入。数据集中的每个样本代表一次评估结果，可直接用于训练记忆检测模型、分析不同模型架构的记忆倾向，或作为基准进行对比实验。借助其丰富的概率统计特征与窗口级标注，用户能够轻松定位高记忆风险区域，开展诸如记忆阈值优化、模型减毒训练等下游研究任务。

背景与挑战

背景概述

该数据集由基于Llama 3.1-8B模型经过SimNPO算法微调后的评估结果构建而成，创建于2025年，其核心研究问题聚焦于大语言模型在训练过程中对训练数据的记忆行为（memorization）的量化分析。具体而言，数据集通过滑动窗口技术将文本划分为片段，并计算每个片段在模型下的对数概率与显著性指标（p_z），以识别哪些片段被模型“记住”。这一工作对于理解模型泛化与过拟合的边界、提升模型安全性与隐私保护具有重要价值。数据集包含4663个样本，覆盖了文本长度、窗口数量、记忆比例、概率分布统计以及最佳记忆窗口的详细信息，为后续在模型记忆行为分析、训练数据溯源等方向的研究提供了标准化的评测基准。

当前挑战

该数据集所解决的领域问题在于，大语言模型可能意外地记忆训练数据中的敏感信息，从而引发隐私泄露风险，而现有方法难以高效、精确地定位被记忆的文本片段。构建过程中面临的主要挑战包括：1）如何设计合理的窗口划分策略，以确保既能捕捉局部记忆行为又不损失上下文完整性；2）如何定义稳健的记忆判定阈值（eval_threshold），避免因模型不确定性导致的误判；3）大规模计算窗口级对数概率与显著性指标时，需要平衡计算效率与精度；4）数据集中包含的窗口列表、目标概率等复杂嵌套结构，对存储与访问效率提出了更高要求。这些挑战的解决对于推动模型记忆可解释性研究至关重要。

常用场景

经典使用场景

该数据集专为评估大型语言模型在序列记忆与泛化能力而设计，尤其聚焦于模型对训练文本中特定片段的再现倾向。通过为每段文本计算滑动窗口内的对数概率、记忆窗口占比及覆盖度等指标，研究者能够量化模型在推理过程中对训练数据的依赖程度。其经典使用场景包括对比不同训练策略（如SimNPO与常规微调）、不同模型规模或不同解码算法对记忆行为的影响，从而揭示模型‘记忆’与‘理解’之间的脆弱平衡。

解决学术问题

该数据集直面大语言模型领域的核心隐忧——模型可能通过记忆训练数据而非真正理解语义来生成答案，这一现象被称为‘记忆泄露’或‘数据污染’评估难题。通过提供细粒度的文本窗口分析和多维度统计（如最大p_z值、最佳窗口位置与种子），它使得研究人员能够定量刻画模型记忆的边界与模式。它的意义在于为衡量模型泛化能力提供了可复现的基准，推动了训练算法（如防遗忘正则化、差分隐私）的改进，对理解模型过拟合与安全风险的机制具有重要影响。

实际应用

在实际部署中，该数据集可用于构建模型行为的监控系统，例如在对话生成、代码补全或文档摘要等场景下自动检测模型是否输出了训练集中的敏感或专有内容。企业或研究机构可利用其评估工具，在模型发布前对潜在的记忆泄露风险进行审计，避免侵犯版权或泄露隐私。此外，该数据集还可服务于‘模型版权验证’，通过分析输出文本与训练数据的记忆窗口匹配度，来判定模型是否不当使用了受保护的材料。

数据集最近研究