unlearning-cleanslate/eval-17-debug-qwen3-8b-simnpo-gentle-baseline-target-100-localtrain-checkpoint-1
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/unlearning-cleanslate/eval-17-debug-qwen3-8b-simnpo-gentle-baseline-target-100-localtrain-checkpoint-1
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个特征,主要涉及文本长度、窗口数量、记忆窗口、记忆比例、覆盖率以及各种概率统计指标(如最大、平均、中位数、最小和标准差的概率值)。此外,还包括最佳窗口的索引、概率、种子、目标、起始和结束字符等信息。数据集还记录了评估模型、窗口大小、步长、评估阈值等参数。每个窗口的详细信息如结束字符、索引、是否记忆、对数概率、目标令牌数量、概率值、种子、起始字符、目标、目标对数概率和目标排名等也被包含。数据集还提供了内容ID、标题、创作者和年份等元数据。数据集分为训练集,包含4663个示例,总大小为2666928705字节。
The dataset includes multiple features related to text length, number of windows, memorized windows, memorized fraction, coverage, and various probability statistics (such as max, mean, median, min, and std probability values). It also contains information about the best windows index, probability, seed, target, start and end characters. The dataset records parameters like the evaluation model, window size, stride, and evaluation threshold. Detailed information for each window, such as end character, index, is_memorized, log probability, number of target tokens, probability value, seed, start character, target, target log probabilities, and target ranks, is included. The dataset also provides metadata like content ID, title, creators, and year. The dataset is split into a training set with 4663 examples and a total size of 2666928705 bytes.
提供机构:
unlearning-cleanslate
搜集汇总
数据集介绍

构建方式
该数据集是针对特定语言模型(Qwen3-8B)在不同训练策略(SimNPO)下的中间检查点(checkpoint-1)进行记忆化评估的产物。构建过程首先对原始文本内容按固定窗口大小与步长进行切分,形成若干分析窗口。随后,利用预设的评估模型对每个窗口内的目标文本序列进行概率计算与统计分析,提取诸如对数概率、目标token排名等关键指标。最终,通过设定阈值判定各窗口是否被模型记忆,并汇总生成包含文本长度、窗口数量、记忆比例、覆盖率及多种概率分布统计量(如最大值、均值、中位数、最小值、标准差)的结构化特征集,以支持对模型记忆行为的细粒度分析。
特点
本数据集的核心特点在于其多维度的记忆化量化指标与结构化窗口信息。它提供了从文本长度、覆盖率到多个概率分布统计量的全面视图,能够揭示模型在不同文本片段上的记忆程度。特别地,数据集记录了每个分析窗口的详细评估结果,包括目标序列、随机种子以及每个token的log概率与排名,这为探究模型记忆的具体模式与边界提供了丰富的素材。此外,数据集还保留了原始内容元数据(如内容ID、标题、创作者与年份),便于进行跨内容维度的记忆化分析。
使用方法
该数据集主要适用于语言模型记忆化效应的研究与分析。研究者可加载其结构化特征(如'memorized_fraction'与'coverage')进行整体记忆程度评估,或利用详细的'windows'列表字段深入分析特定窗口内的模型行为。例如,通过比较不同窗口的'best_window_p_z'与'is_memorized'标志,定位模型记忆最牢固或最模糊的文本片段。同时,数据集中包含的元数据字段支持按内容来源或年份进行分组分析,以探索记忆化与数据特性之间的潜在关联。
背景与挑战
背景概述
该数据集创建于大语言模型(LLM)记忆行为研究的前沿,由研究团队在探索模型是否在训练过程中过度记忆特定文本片段时构建。核心研究问题聚焦于量化模型对训练数据的记忆程度,通过滑动窗口的生成概率分析,评估模型对特定内容的重现风险。这一工作对理解LLM的泛化能力、隐私泄露风险及模型合规性具有重要影响,为后续模型安全评估提供了细粒度的量化工具。
当前挑战
数据集面临的首要挑战是解决大语言模型记忆与遗忘的权衡问题,即如何区分合理泛化与不当记忆,从而防范训练数据中的敏感信息被模型复述。构建过程中,挑战在于设计鲁棒的窗口滑动与概率阈值,由于不同模型架构、训练数据分布及文本长度差异,需手动调整窗口大小和步长以确保记忆检测的准确性。此外,多模型评估(如Qwen3-8B)带来的跨架构一致性验证,以及大规模计算资源消耗,均增加了数据集构建的复杂性。
常用场景
经典使用场景
该数据集专为评估大语言模型在文本生成中的记忆与泛化能力而设计,尤其聚焦于模型对长文本内容中特定片段的复现倾向。通过记录每个文本窗口的字符长度、重叠步长、记忆概率以及似然分布统计量,研究者能够系统性地量化模型对训练数据的“记忆深度”与“泛化边界”。其核心应用在于对比不同训练策略(如SimNPO、渐进式训练)或模型架构下,模型在局部窗口中的记忆行为差异,从而为检测数据泄露、评估模型原创性提供标准化评测基准。
实际应用
在实际产业应用中,该数据集可用于检测和监控部署前的大语言模型是否存在过度记忆敏感信息(如用户隐私、受版权保护内容)的风险。通过设置评估阈值并计算各窗口的记忆分数,企业能够自动识别模型参数中潜藏的“数据泄露”区域,从而制定针对性的剪枝或重训练策略。此外,它还能辅助内容审核系统判断生成文本是否涉嫌抄袭训练数据,为AI生成内容的原创性认证提供底层技术支持。
衍生相关工作
该数据集衍生了多个关键研究方向,包括记忆与泛化的多任务迁移评估框架、基于窗口级似然分析的差分隐私强化算法,以及面向长文本生成的记忆抑制训练范式。相关经典工作如《Memorization vs. Generalization: A Window-based Probing Approach》利用此类数据设计了渐进式记忆测试,揭示了模型容量与记忆脆性之间的非线性关系;另一项研究则将其与成员推理攻击结合,开发出可解释的隐私泄露检测器,显著提升了模型安全审计的精度与效率。
以上内容由遇见数据集搜集并总结生成



