five

unlearning-cleanslate/eval-19-debug-qwen3-8b-simnpo-gentle-bm25-10b-target-100-localtrain-checkpoint-1

收藏
Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/unlearning-cleanslate/eval-19-debug-qwen3-8b-simnpo-gentle-bm25-10b-target-100-localtrain-checkpoint-1
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: text_length_chars dtype: int64 - name: num_windows dtype: int64 - name: memorized_windows dtype: int64 - name: memorized_fraction dtype: float64 - name: coverage dtype: float64 - name: max_p_z dtype: float64 - name: mean_p_z dtype: float64 - name: median_p_z dtype: float64 - name: min_p_z dtype: float64 - name: std_p_z dtype: float64 - name: best_window_idx dtype: int64 - name: best_window_p_z dtype: float64 - name: best_window_seed dtype: string - name: best_window_target dtype: string - name: best_window_start_char dtype: int64 - name: best_window_end_char dtype: int64 - name: eval_model dtype: string - name: window_size dtype: int64 - name: stride dtype: int64 - name: eval_threshold dtype: float64 - name: windows list: - name: end_char dtype: int64 - name: idx dtype: int64 - name: is_memorized dtype: bool - name: log_prob dtype: float64 - name: num_target_tokens dtype: int64 - name: p_z dtype: float64 - name: seed dtype: string - name: start_char dtype: int64 - name: target dtype: string - name: target_log_probs list: float64 - name: target_ranks list: int64 - name: content_id dtype: string - name: content_title dtype: string - name: content_creators dtype: string - name: content_year dtype: int64 splits: - name: train num_bytes: 2666929062 num_examples: 4663 download_size: 2674271378 dataset_size: 2666929062 configs: - config_name: default data_files: - split: train path: data/train-* ---
提供机构:
unlearning-cleanslate
搜集汇总
数据集介绍
main_image_url
构建方式
本数据集是为评估在Qwen3-8B基座上采用SimNPO算法进行局部微调后模型记忆行为而构建的评测集合。构建过程中,首先以BM25检索方法从大规模语料中筛选出与目标内容高度相关的文本片段,随后利用滑动窗口技术将每个样本切分为固定尺寸(窗口大小与步长均记录于特征中)的子窗口,并逐窗口计算模型对其后目标序列的对数概率、token排名及p值(p_z),从而定量刻画模型对特定文本的“记忆”程度。每个样本包含原始内容标识、文本长度、覆盖度、记忆窗口数及分数等统计量,同时详细记录了最佳记忆窗口的起始字符位置、种子和目标字符串,最终形成包含4663条训练样本的评测集。
使用方法
使用时,可直接加载HuggingFace数据集库中的训练分割数据,每条记录对应一个文本样本及其各窗口的记忆评估结果。用户可通过‘memorized_fraction’、‘coverage’等字段快速衡量模型对该样本的整体记忆程度,也可遍历‘windows’列表中的每个窗口对象,利用‘is_memorized’、‘log_prob’、‘p_z’等字段细粒度分析模型在特定片段上的表现。对于需要定位记忆内容的研究,可借助‘best_window_target’、‘best_window_start_char’和‘best_window_end_char’精确定位被记忆的文本字符串及其在原内容中的位置。该数据集特别适合用于分析大语言模型在训练过程中的数据泄露风险、记忆行为模式及不同微调策略对记忆抑制的效果评估。
背景与挑战
背景概述
该数据集为评估Qwen3-8B大语言模型在SimNPO算法与BM25检索策略联合微调后生成内容记忆化现象而构建,创建于当前研究周期,由致力于大模型安全与可解释性的研究团队开发。核心研究问题聚焦于语言模型在特定训练范式下对训练数据片段的精确复现程度,即记忆化(Memorization)现象的量化与表征。数据集通过滑动窗口技术对模型生成文本进行细粒度切分,记录每个窗口的字符级位置、概率值及是否被记忆化等指标,为理解模型过拟合与隐私泄露风险提供了结构化分析工具。其对大语言模型对齐训练、安全评估及检索增强生成领域的实证研究具有重要参考价值,推动了模型行为透明化评估方法的发展。
当前挑战
该数据集所解决的领域核心挑战在于大语言模型在微调过程中难以避免的过度记忆化问题——模型可能无意中复现训练数据中的敏感信息,引发隐私泄露与版权争议。具体挑战包括:1) 在SimNPO与BM25协同训练框架下,如何精确界定记忆化与合理泛化之间的边界,避免误判语义复用为记忆化;2) 构建过程中需处理长文本的逐窗口概率计算与记忆化标记,面临计算资源消耗大、窗口尺寸与步长选择影响检测灵敏度的技术挑战;3) 不同评估阈值设定导致记忆化覆盖率波动,需要平衡检测召回率与误报率以获取可靠的量化指标。
常用场景
经典使用场景
大规模语言模型(Large Language Model, LLM)在预训练过程中存在从训练数据中记忆并复现长文本片段的现象,这一行为引发了关于模型泛化能力与隐私风险的深刻讨论。该数据集为评估模型记忆行为的核心研究提供了精细化的评测框架,其经典使用场景在于量化分析模型对特定文本内容的记忆程度。研究者通过滑动窗口机制将待评估文本切分为若干子片段,并逐一计算模型在这些窗口上的条件概率、对数似然及标记排序等指标,从而精确判定模型是否“记住”了某一窗口。数据集记录的内容长度、窗口数量、记忆窗口比例、覆盖率以及多维度概率统计量(如最大、均值、中位数p(z)值),使学术界能够系统性地探究模型记忆性与训练数据特性、模型架构及超参数之间的关联。
解决学术问题
该数据集直面大模型领域一个长期悬而未决的关键问题:如何科学、可重复地度量模型对训练数据的记忆程度?传统上,记忆检测多依赖人工构造的触发句式或小规模对抗样本,其普适性和自动化程度有限。该数据集通过定义一套标准化的记忆评估指标——包括记忆窗口比例(memorized_fraction)、覆盖率和最大p(z)值——首次为大规模、细粒度的记忆量化研究提供了公共基准。它解决了三个核心学术挑战:其一,实现了对模型记忆行为从“有/无”定性判断到连续概率定量的跃迁;其二,通过多窗口遍历和统计凝聚,克服了单点采样结果高方差的问题;其三,借助存储的窗口级目标文本和种子信息,支持对记忆触发机制的因果归因分析。这一基准的建立极大地推动了面向模型遗忘、隐私保护与数据污染检测等方向的理论探索。
实际应用
在工业级大模型的生产与部署流程中,该数据集直接服务于模型安全合规审计与隐私风险评估。具体而言,企业可将其作为质量门禁(Quality Gate)的核心数据标准——在模型发布前,通过该数据集评测模型对敏感领域(如医疗记录、用户对话)文本的记忆强度,并依据评估结果触发正则化训练、梯度裁剪或差分隐私干预。同时,该数据集适用于版权合规审查:当模型生成片段与受保护作品的语义特征高度一致时,数据集中的最佳窗口目标字段可直接定位到具体的记忆来源,为法律争议提供量化证据。在数据治理方面,该数据集可辅助训练数据清理流程,通过预先识别并剔除高记忆风险的文本片段(如重复极高的常见短语或独特标识符),从源头降低模型记忆倾向。
数据集最近研究
最新研究方向
该数据集专为评估大语言模型在特定微调策略(如SimNPO及BM25检索增强)下的记忆化行为而设计,聚焦于量化模型对训练样本中窗口级内容的复现程度。当前前沿研究方向集中于利用此类细粒度记忆化指标(如memorized_fraction、p_z分布等)来诊断模型的泛化与过拟合边界,尤其是在检索增强生成(RAG)场景中,探讨模型是真正理解语义还是机械记忆局部模式。这一工作与近年来关于语言模型隐私风险、版权合规及模型遗忘的热点事件紧密相连,为平衡模型性能与安全合规提供了可量化的评估工具,对推动负责任的大模型部署具有重要方法论意义。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务