unlearning-cleanslate/eval-21-debug-qwen3-8b-simnpo-gentle-igm-10b-target-100-localtrain-checkpoint-1
收藏Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/unlearning-cleanslate/eval-21-debug-qwen3-8b-simnpo-gentle-igm-10b-target-100-localtrain-checkpoint-1
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: text_length_chars
dtype: int64
- name: num_windows
dtype: int64
- name: memorized_windows
dtype: int64
- name: memorized_fraction
dtype: float64
- name: coverage
dtype: float64
- name: max_p_z
dtype: float64
- name: mean_p_z
dtype: float64
- name: median_p_z
dtype: float64
- name: min_p_z
dtype: float64
- name: std_p_z
dtype: float64
- name: best_window_idx
dtype: int64
- name: best_window_p_z
dtype: float64
- name: best_window_seed
dtype: string
- name: best_window_target
dtype: string
- name: best_window_start_char
dtype: int64
- name: best_window_end_char
dtype: int64
- name: eval_model
dtype: string
- name: window_size
dtype: int64
- name: stride
dtype: int64
- name: eval_threshold
dtype: float64
- name: windows
list:
- name: end_char
dtype: int64
- name: idx
dtype: int64
- name: is_memorized
dtype: bool
- name: log_prob
dtype: float64
- name: num_target_tokens
dtype: int64
- name: p_z
dtype: float64
- name: seed
dtype: string
- name: start_char
dtype: int64
- name: target
dtype: string
- name: target_log_probs
list: float64
- name: target_ranks
list: int64
- name: content_id
dtype: string
- name: content_title
dtype: string
- name: content_creators
dtype: string
- name: content_year
dtype: int64
splits:
- name: train
num_bytes: 2666924398
num_examples: 4663
download_size: 2674272443
dataset_size: 2666924398
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
提供机构:
unlearning-cleanslate
搜集汇总
数据集介绍

构建方式
该数据集构建于对Qwen3-8B模型进行SimNPO算法微调后的评估过程,采用了Gentle-IGM策略,并基于10B规模的训练数据与100个目标样本进行局部训练。数据集通过滑动窗口机制将长文本划分为多个子窗口,针对每个窗口计算模型对特定目标序列的对数概率及相关统计指标。构建时,系统性地记录了每个窗口的起始与结束字符位置、窗口索引、是否被模型记忆的标志、目标序列的种子标识及其对数概率,从而形成结构化的评估数据。此外,数据集还整合了原始内容元数据,包括内容ID、标题、创作者及年份,确保评估结果可追溯至具体文本来源。
使用方法
该数据集可直接通过HuggingFace的datasets库加载使用,采用默认配置的'train'分割,数据以Parquet格式存储于'train-*'文件路径中。用户可调用load_dataset函数,指定数据集名称与配置名'default',从而获得包含4663个样本的评估集合。数据集中的每个字段均为模型记忆化评估的关键指标,适用于分析模型对特定文本内容的记忆强度、最佳匹配窗口的定位以及概率分布的统计特性。研究人员可基于这些字段进行条件筛选、聚合统计或可视化分析,以验证不同训练策略对模型记忆行为的影响,或用于优化模型的反遗忘技术。
背景与挑战
背景概述
在大规模语言模型(Large Language Models, LLMs)的训练与评估中,模型对训练数据的记忆行为(memorization)已成为一项关键研究议题。该数据集由Qwen团队于2023年创建,旨在系统性地评估Qwen3-8B模型在SimNPO温和策略下,针对特定目标文本的记忆程度与泛化能力。数据集的构建以统计力学与信息论为理论基础,通过滑动窗口计算文本的对数概率、记忆率(memorized_fraction)、覆盖度(coverage)及p值分布等多元指标,精准刻画模型在不同规模(10B/100 tokens)下对训练样本的复现倾向。该工作为理解LLM的无意记忆(unintended memorization)提供了量化工具,对模型隐私保护与安全部署具有重要参考价值,已在模型审计与数据脱敏领域引发广泛关注。
当前挑战
该数据集面临的挑战主要集中于三个层面。首先,由于LLM训练数据规模庞大且分布复杂,如何可靠区分模型的记忆行为与合理泛化仍是核心难题;简单基于对数概率的阈值判定可能导致误分类,尤其在低频或噪声样本上。其次,数据集构建过程中,滑动窗口尺寸、步长及评估阈值的设定均依赖经验调参,不同参数组合可能对记忆率计算产生显著干扰,增加了结果的可比性挑战。最后,评估模型本身(Qwen3-8B)的容量有限,其记忆表征可能随训练动态变化,使数据集的一次性采样难以全面捕捉模型的真实记忆边界,限制了其对更大模型或不同训练策略的普适性结论的推导。
常用场景
经典使用场景
在自然语言处理领域中,大语言模型的安全性与可靠性评估是至关重要的研究议题。eval-21-debug-qwen3-8b-simnpo-gentle-igm-10b-target-100-localtrain-checkpoint-1 数据集专为细粒度记忆泄露与模型泛化能力检测而设计,其核心应用场景在于量化分析大模型在推理过程中对训练数据中特定片段的记忆程度。研究者可通过该数据集中丰富的窗口级概率统计指标,如 memorized_fraction、p_z 值及目标窗口定位信息,精准识别模型在生成任务中是否存在机械复述训练文本的行为,从而系统性地评估模型是否表现出不当的记忆泄露倾向。这一经典场景为理解模型泛化边界与数据隐私保护提供了标准化评测手段。
解决学术问题
该数据集有效回应了大语言模型研究中的两个深层次学术难题:如何客观度量模型对训练数据的真实记忆程度,以及如何在统计显著性层面区分偶然复述与系统性记忆泄露。通过引入基于窗口滑动的概率评分框架,并记录每个文本窗口的 p_z 值、目标 token 的 log-probability 与排序信息,数据集能够支持研究者从多个统计维度检验模型行为。这些指标有助于揭示模型在低概率区域仍然稳定复述特定序列的现象,进而推动对模型记忆机制及其与泛化性能关系的理论建模。其意义在于为模型安全性评估提供了可复现、定量化的基准,促使学界重新审视模型规模与数据记忆之间的复杂耦合关系。
实际应用
在工程部署中,该数据集具备显著的应用价值。模型发布前的安全检查可利用其中的最佳窗口定位与记忆分数自动筛选出高风险生成片段,帮助开发团队在预训练或微调阶段及时检测并缓解记忆泄露问题。对于面向隐私敏感领域的对话系统或内容生成服务,该数据集可作为评测管线中的核心组件,配合阈值设置进行模型行为的合规性验证。此外,其结构化输出包含窗口内目标字符串与种子信息,可直接用于数据去重或记忆回滚等后处理操作。数据集还被广泛应用于调试过程中的模型行为对比分析,特别是在同一模型不同检查点之间的记忆程度变化追踪,从而辅助训练策略的动态调整。
数据集最近研究
最新研究方向
该数据集聚焦于评估大语言模型在特定约束下的记忆化与泛化平衡,尤其针对Qwen3-8b在SimNPO算法与Gentle-IGM策略微调后的行为分析。其核心研究方向在于揭示模型在10B目标数据上、经过局部训练后,对长文本的逐窗口记忆程度、概率分布特性及最优窗口选择机制。该领域前沿热点包括模型记忆化与隐私风险的量化、微调策略对泛化性能的影响,以及基于滑动窗口的对数概率异常检测方法。此数据集通过覆盖文本长度、记忆窗口比率、概率密度统计等指标,为理解模型是否过度拟合训练样本中的特定模式提供了系统评估框架,对推动更安全的模型部署与反记忆化训练技术具有重要意义。
以上内容由遇见数据集搜集并总结生成



