unlearning-cleanslate/eval-20-debug-llama-3_1-8b-simnpo-gentle-igm-10b-target-100-localtrain-checkpoint-1
收藏Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/unlearning-cleanslate/eval-20-debug-llama-3_1-8b-simnpo-gentle-igm-10b-target-100-localtrain-checkpoint-1
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: text_length_chars
dtype: int64
- name: num_windows
dtype: int64
- name: memorized_windows
dtype: int64
- name: memorized_fraction
dtype: float64
- name: coverage
dtype: float64
- name: max_p_z
dtype: float64
- name: mean_p_z
dtype: float64
- name: median_p_z
dtype: float64
- name: min_p_z
dtype: float64
- name: std_p_z
dtype: float64
- name: best_window_idx
dtype: int64
- name: best_window_p_z
dtype: float64
- name: best_window_seed
dtype: string
- name: best_window_target
dtype: string
- name: best_window_start_char
dtype: int64
- name: best_window_end_char
dtype: int64
- name: eval_model
dtype: string
- name: window_size
dtype: int64
- name: stride
dtype: int64
- name: eval_threshold
dtype: float64
- name: windows
list:
- name: end_char
dtype: int64
- name: idx
dtype: int64
- name: is_memorized
dtype: bool
- name: log_prob
dtype: float64
- name: num_target_tokens
dtype: int64
- name: p_z
dtype: float64
- name: seed
dtype: string
- name: start_char
dtype: int64
- name: target
dtype: string
- name: target_log_probs
list: float64
- name: target_ranks
list: int64
- name: content_id
dtype: string
- name: content_title
dtype: string
- name: content_creators
dtype: string
- name: content_year
dtype: int64
splits:
- name: train
num_bytes: 2665218160
num_examples: 4663
download_size: 2672546509
dataset_size: 2665218160
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
提供机构:
unlearning-cleanslate
搜集汇总
数据集介绍

构建方式
该数据集专为评估大语言模型记忆能力而构建,其设计根植于对模型生成文本中潜在记忆痕迹的定量分析。构建过程中,首先将原始文本依据预设的窗口大小与步长分割为连续且部分重叠的子片段,随后利用特定的评估模型(如llama-3_1-8b-simnpo变体)对每个片段进行推理。通过计算每个窗口内目标字符串的出现位置、概率与对数概率等统计量,判定该窗口是否被模型‘记忆’,从而生成结构化评估指标。数据集涵盖了从文本长度、窗口数量、记忆窗口比例到概率分布特征(如最大、最小、均值及标准差)等21项精细特征,每一条记录均来源于对一篇完整文档的深度剖析。
使用方法
该数据集以JSON格式存储,共包含4663个训练样本,适用于加载至HuggingFace Datasets库进行调用。研究者可通过指定config名称为‘default’并读取‘data/train-*’路径下的文件实现数据载入。数据集中的每个样本代表一次评估结果,可直接用于训练记忆检测模型、分析不同模型架构的记忆倾向,或作为基准进行对比实验。借助其丰富的概率统计特征与窗口级标注,用户能够轻松定位高记忆风险区域,开展诸如记忆阈值优化、模型减毒训练等下游研究任务。
背景与挑战
背景概述
该数据集由基于Llama 3.1-8B模型经过SimNPO算法微调后的评估结果构建而成,创建于2025年,其核心研究问题聚焦于大语言模型在训练过程中对训练数据的记忆行为(memorization)的量化分析。具体而言,数据集通过滑动窗口技术将文本划分为片段,并计算每个片段在模型下的对数概率与显著性指标(p_z),以识别哪些片段被模型“记住”。这一工作对于理解模型泛化与过拟合的边界、提升模型安全性与隐私保护具有重要价值。数据集包含4663个样本,覆盖了文本长度、窗口数量、记忆比例、概率分布统计以及最佳记忆窗口的详细信息,为后续在模型记忆行为分析、训练数据溯源等方向的研究提供了标准化的评测基准。
当前挑战
该数据集所解决的领域问题在于,大语言模型可能意外地记忆训练数据中的敏感信息,从而引发隐私泄露风险,而现有方法难以高效、精确地定位被记忆的文本片段。构建过程中面临的主要挑战包括:1)如何设计合理的窗口划分策略,以确保既能捕捉局部记忆行为又不损失上下文完整性;2)如何定义稳健的记忆判定阈值(eval_threshold),避免因模型不确定性导致的误判;3)大规模计算窗口级对数概率与显著性指标时,需要平衡计算效率与精度;4)数据集中包含的窗口列表、目标概率等复杂嵌套结构,对存储与访问效率提出了更高要求。这些挑战的解决对于推动模型记忆可解释性研究至关重要。
常用场景
经典使用场景
该数据集专为评估大型语言模型在序列记忆与泛化能力而设计,尤其聚焦于模型对训练文本中特定片段的再现倾向。通过为每段文本计算滑动窗口内的对数概率、记忆窗口占比及覆盖度等指标,研究者能够量化模型在推理过程中对训练数据的依赖程度。其经典使用场景包括对比不同训练策略(如SimNPO与常规微调)、不同模型规模或不同解码算法对记忆行为的影响,从而揭示模型‘记忆’与‘理解’之间的脆弱平衡。
解决学术问题
该数据集直面大语言模型领域的核心隐忧——模型可能通过记忆训练数据而非真正理解语义来生成答案,这一现象被称为‘记忆泄露’或‘数据污染’评估难题。通过提供细粒度的文本窗口分析和多维度统计(如最大p_z值、最佳窗口位置与种子),它使得研究人员能够定量刻画模型记忆的边界与模式。它的意义在于为衡量模型泛化能力提供了可复现的基准,推动了训练算法(如防遗忘正则化、差分隐私)的改进,对理解模型过拟合与安全风险的机制具有重要影响。
实际应用
在实际部署中,该数据集可用于构建模型行为的监控系统,例如在对话生成、代码补全或文档摘要等场景下自动检测模型是否输出了训练集中的敏感或专有内容。企业或研究机构可利用其评估工具,在模型发布前对潜在的记忆泄露风险进行审计,避免侵犯版权或泄露隐私。此外,该数据集还可服务于‘模型版权验证’,通过分析输出文本与训练数据的记忆窗口匹配度,来判定模型是否不当使用了受保护的材料。
数据集最近研究
最新研究方向
在大规模语言模型(LLM)的记忆化(memorization)与隐私泄露风险评估领域,该数据集通过细粒度评估框架(如窗口滑动匹配与概率阈值分析)系统性地量化了模型对训练数据的记忆程度。其创新性地引入了逐窗口记忆分数(如memorized_fraction、mean_p_z)与最佳窗口搜索机制(best_window_p_z),为理解模型过拟合行为提供了多维度解析工具。当前前沿研究聚焦于利用此类数据集揭示LLM在指令微调阶段的知识固化规律,例如通过对比不同训练目标(如SimNPO)与超参数(如gentle-igm)对记忆化模式的影响,进而探索减轻模型对长尾数据过度记忆的策略。该工作直接关联到AI伦理热点——模型合规性审计与数据版权保护,其评估结果可指导开发更安全的训练算法,弥合性能与隐私之间的鸿沟。
以上内容由遇见数据集搜集并总结生成



