five

unlearning-cleanslate/eval-checkpoint-192-w100-s10

收藏
Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/unlearning-cleanslate/eval-checkpoint-192-w100-s10
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个包含4663个训练示例的结构化数据集,总大小约为2.74 GB。它主要用于分析文本内容的记忆性特征,包括文本长度、窗口数量、记忆窗口比例、覆盖率、概率统计指标(如最大、平均、中位数、最小和标准差的p_z值),以及最佳窗口的详细信息(如索引、p_z值、种子、目标文本、起始和结束字符位置)。此外,数据集还包含评估模型、窗口大小、步长、评估阈值等元数据,以及内容标识符、标题、创建者和年份等附加信息。每个示例进一步细分为窗口列表,记录每个窗口的结束字符、索引、是否被记忆、对数概率、目标令牌数量、p_z值、种子、起始字符、目标和目标对数概率及排名。

This dataset is a structured collection containing 4,663 training examples with a total size of approximately 2.74 GB. It is designed for analyzing memorization characteristics in text content, featuring metrics such as text length, number of windows, memorized windows fraction, coverage, probability statistics (e.g., max, mean, median, min, and standard deviation of p_z values), and detailed information on the best window (including index, p_z value, seed, target text, start and end character positions). Additionally, the dataset includes metadata like evaluation model, window size, stride, evaluation threshold, as well as content identifiers, titles, creators, and years. Each example is further subdivided into a list of windows, recording per-window details such as end character, index, memorization status, log probability, number of target tokens, p_z value, seed, start character, target, and target log probabilities and ranks.
提供机构:
unlearning-cleanslate
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自对语言模型在特定检查点(checkpoint)下记忆化行为的系统性评估。构建过程中,研究人员选取了评估步数为192、窗口宽度为100、步长为10的配置,对大量文本样本进行滑动窗口分析。每个窗口被标记为是否被模型记忆,并计算其对数概率、p_z值等一系列统计指标。通过汇总窗口级信息,数据集为每篇文本提供了字符长度、记忆窗口数量、记忆比例、覆盖率以及p_z值分布(最大、最小、均值、中位数、标准差)等宏观特征。最终,数据集以parquet格式存储,包含4663条训练样本,总计约2.7GB。
特点
该数据集的核心特色在于其精细化的记忆化量化体系。它不仅记录文本整体是否被模型记忆,更通过滑动窗口机制捕捉局部记忆模式,提供每个窗口的起始与结束字符位置、种子、目标文本及其对数概率和排序信息。此外,数据集整合了文本元数据(如标题、创作者、年份),便于进行跨文本类型的记忆分析。关键统计量如最佳记忆窗口的p_z值、索引及种子,使得研究者能够定位模型最强烈记忆的片段。这种多层级、多维度的特征设计,为深入理解语言模型训练过程中的记忆行为提供了宝贵资源。
使用方法
本数据集适用于分析和评估语言模型训练过程中的记忆化程度与模式。使用者可加载parquet文件中的train分割,利用提供的字段计算任意文本的记忆比例或p_z值分布。通过过滤特定窗口特征(如is_memorized标志),可提取模型记忆的精确文本片段及其上下文。结合eval_model、window_size、stride和eval_threshold等元信息,可复现评估配置并进行对比研究。此外,content_id和content_title等字段支持按源文档聚合分析,探究模型记忆与文本属性(如长度、创作者、创作年份)之间的关联,从而为模型训练、数据去重及隐私保护提供实证依据。
背景与挑战
背景概述
在大型语言模型(LLM)的评估与对齐研究中,如何量化模型对训练数据的记忆程度逐渐成为核心议题。该数据集由研究团队于模型训练检查点(checkpoint-192)构建,旨在系统评估LLM在固定窗口大小(w=100)和步长(s=10)下的记忆行为。数据集包含4663个样本,详细记录了文本长度、窗口覆盖率、最大及平均概率等特征,为理解模型过拟合和泛化能力提供了细粒度指标。作为检查点评估工具,该数据集对推动模型透明度与安全性研究具有重要意义。
当前挑战
数据集面临的核心挑战在于平衡记忆评估的精确性与计算效率:一方面,细粒度窗口化分析虽能揭示局部记忆模式,但需处理词元级对数概率与排名等大数据量,导致存储与处理负担较重;另一方面,如何定义合理的记忆阈值以区分偶然对齐与真正记忆,同时避免因窗口重叠或文本稀疏性引发的评估偏差,仍是构建过程中的关键难题。此外,模型在不同训练阶段的行为差异使得单一检查点评估难以全面反映动态记忆演化,需要未来结合多检查点采样与跨架构对比来完善方法论。
常用场景
经典使用场景
在语言模型的记忆与泛化能力评估领域,eval-checkpoint-192-w100-s10数据集被广泛应用于量化模型对训练数据的记忆程度。该数据集通过滑动窗口采样技术,将长文本切分为等长片段,并记录每个窗口的逐词对数概率、目标词秩次以及记忆判定结果等细粒度指标。研究者可借助memorized_fraction、coverage、p_z分布等统计特征,精确刻画模型在不同窗口大小和步长下的记忆行为,从而揭示模型从死记硬背到语义理解的转变规律。这一经典使用范式为理解大规模语言模型的内部工作机制提供了标准化评估工具。
衍生相关工作
该数据集的诞生催生了一系列围绕语言模型记忆测量与缓解的经典工作。基于其窗口化记忆评估框架,衍生出多种记忆检测算法,例如利用p_z值的异常分布识别记忆峰值,或通过对比不同窗口大小的记忆一致性来区分泛化与记忆。同时,该数据集启发了针对模型记忆的干预策略研究,如基于梯度操纵的定向遗忘方法、差分隐私训练对记忆的抑制效应分析,以及知识编辑后记忆残留的评估体系。这些衍生工作在NLP顶会(如ACL、EMNLP)中形成了活跃的研究子领域,共同推进了语言模型可解释性与可信赖性的理论边界。
数据集最近研究
最新研究方向
该数据集聚焦于大语言模型(LLM)在训练过程中对训练数据的记忆化现象(memorization)的量化评估,为研究模型隐私泄露、数据遗忘(machine unlearning)以及模型泛化能力提供了关键性工具。通过精细化的窗口化分析(window-based analysis),数据集记录了文本长度、记忆窗口数、覆盖度及概率分布(如p_z值)等指标,能够揭示模型在特定上下文中的记忆深度与行为模式。在当前AI安全与合规性成为热点的背景下,该数据集助力研究者探究模型是否过度记忆了训练集中的敏感或版权内容,从而推动更安全的模型训练策略与数据脱敏技术的发展。其细致的特征设计还支持对模型输出与训练数据相似度的逐窗口验证,为理解模型在长文本生成任务中的记忆机制、评估记忆与遗忘阈值提供了重要的实证基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作