unlearning-cleanslate/eval-checkpoint-80-w100-s10
收藏Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/unlearning-cleanslate/eval-checkpoint-80-w100-s10
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: text_length_chars
dtype: int64
- name: num_windows
dtype: int64
- name: memorized_windows
dtype: int64
- name: memorized_fraction
dtype: float64
- name: coverage
dtype: float64
- name: max_p_z
dtype: float64
- name: mean_p_z
dtype: float64
- name: median_p_z
dtype: float64
- name: min_p_z
dtype: float64
- name: std_p_z
dtype: float64
- name: best_window_idx
dtype: int64
- name: best_window_p_z
dtype: float64
- name: best_window_seed
dtype: string
- name: best_window_target
dtype: string
- name: best_window_start_char
dtype: int64
- name: best_window_end_char
dtype: int64
- name: eval_model
dtype: string
- name: window_size
dtype: int64
- name: stride
dtype: int64
- name: eval_threshold
dtype: float64
- name: windows
list:
- name: end_char
dtype: int64
- name: idx
dtype: int64
- name: is_memorized
dtype: bool
- name: log_prob
dtype: float64
- name: num_target_tokens
dtype: int64
- name: p_z
dtype: float64
- name: seed
dtype: string
- name: start_char
dtype: int64
- name: target
dtype: string
- name: target_log_probs
list: float64
- name: target_ranks
list: int64
- name: content_id
dtype: string
- name: content_title
dtype: string
- name: content_creators
dtype: string
- name: content_year
dtype: int64
splits:
- name: train
num_bytes: 2666439425
num_examples: 4663
download_size: 2674254155
dataset_size: 2666439425
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
提供机构:
unlearning-cleanslate
搜集汇总
数据集介绍

构建方式
该数据集eval-checkpoint-80-w100-s10的构建基于对大规模语言模型在特定检查点下的记忆化评估。首先,将待评估的文本内容按固定长度(窗口大小w=100)与步长(stride=10)切分为若干窗口,每个窗口包含连续的字符序列及其对应的目标字符串。随后,利用训练至第80步的模型对每个窗口进行概率计算,获取其对数概率(log_prob)与归一化概率(p_z),并依据预设阈值(eval_threshold)判定该窗口是否被模型记忆(is_memorized)。同时,记录了每个文本的整体统计量,如文本长度、窗口总数、记忆窗口数、记忆分数(memorized_fraction)、覆盖度(coverage)以及概率分布特征(最大、最小、平均、中位数与标准差)。最终,筛选出最佳记忆窗口(best_window_idx),并保存其种子、目标及起始字符位置等细节,形成一个包含4663个样本的结构化评估数据集。
使用方法
该数据集适用于研究大语言模型在训练过程中对训练数据的记忆化行为。研究者可直接加载包含4663个样本的train分割,利用文本长度(text_length_chars)、记忆分数(memorized_fraction)与覆盖度(coverage)等标量特征进行整体分布分析。如需深入窗口级别细节,可展开每个样本的windows列表,利用其内的字符位置(start_char、end_char)、目标字符串(target)、记忆标志(is_memorized)、概率(p_z、log_prob)及种子(seed)等字段,定位并分析特定记忆窗口。此外,目标对数概率(target_log_probs)与目标排名(target_ranks)向量可用于计算困惑度或排名统计,从而评估模型对该文本的拟合程度。数据集以Parquet格式存储,兼容HuggingFace Datasets库,支持无代码加载与快速检索,方便集成至现有评估流水线中。
背景与挑战
背景概述
该数据集于大型语言模型(LLM)发展进程中应运而生,由专注于评估模型记忆行为的科研团队构建,旨在探究模型在特定训练检查点下的数据记忆特性。核心研究问题为量化模型对训练数据的记忆程度及分布模式,通过窗口滑动技术分析文本片段的回忆概率。其发布为理解LLM的过拟合现象、隐私泄露风险提供了关键评估基准,对推动模型合规训练与安全部署具有重要学术价值。
当前挑战
数据集所解决的领域挑战在于量化语言模型对训练数据的非故意记忆,该现象直接关系到模型隐私保护与泛化能力评估。构建过程中面临的技术挑战包括:设计合理的窗口滑动策略以覆盖长文本、计算资源开销巨大的逐片段概率评估、跨模型与跨阈值的一致性度量。此外,确保记忆检测指标对文本长度和重复模式的鲁棒性,以及处理多语言、多领域内容的表征差异,均为显著难点。
常用场景
经典使用场景
该数据集专为评估大语言模型在长文本生成中的记忆行为而设计,广泛应用于检测模型是否在推理过程中逐字复述训练数据。研究者利用其提供的窗口化分析机制,将文本分割为固定长度的滑动窗口,通过计算对数概率、记忆窗口比例及覆盖度等指标,量化模型对特定片段的记忆程度。这一框架尤其适用于分析模型在不同阈值和步长设置下的记忆倾向,为理解模型是否过度依赖训练数据提供了标准化评测工具。
解决学术问题
数据集中包含的窗口级统计信息(如p_z值、记忆标记等)有效解决了大语言模型记忆行为难以量化的学术困境。通过引入最佳窗口识别和概率密度分析,研究者能够精确探测模型在生成长序列时是否发生局部复述现象,从而揭示训练数据泄露与模型泛化能力之间的边界。这一方法推动了隐私安全与鲁棒性研究的发展,为评估模型是否仅靠机械记忆而非真正理解语义提供了关键证据。
实际应用
在实际部署中,该数据集可辅助构建大语言模型内容生成的风险监控系统。当模型在对话、文档摘要或代码补全等场景输出与训练数据高度相似的文本时,依据数据集定义的记忆分数与概率分布阈值,系统可及时标记疑似复述内容并触发二次核查。此外,其窗口化结构支持细粒度定位,使得在智能写作助手、自动翻译等应用中能够精准识别模型可能泄露源数据的危险片段,保障生成内容的原创性与合规性。
数据集最近研究
最新研究方向
在大型语言模型(LLM)的隐私与安全性评估领域中,该数据集聚焦于模型记忆化现象的量化检测与归因分析。通过记录文本在不同滑动窗口下的记忆化程度、概率分布及最佳匹配窗口等细粒度指标,为研究领域提供了评估模型潜在隐私泄露风险的新工具。当前前沿研究方向包括利用此类数据探索模型对特定样本(如金种子、高概率片段)的记忆机制,以及结合窗口覆盖率和统计显著性阈值,为模型遗忘与数据净化策略提供可验证的基准。该数据集的构建呼应了业界对生成内容版权与数据合规性的日益关注,尤其对理解大模型在上下文学习中的过度依赖模式、提升模型泛化能力与隐私保护水平具有重要推动作用。
以上内容由遇见数据集搜集并总结生成



