ISACL dataset
收藏arXiv2025-08-25 更新2025-08-28 收录
下载链接:
https://github.com/changhu73/Internal_states_leakage
下载链接
链接失效反馈官方服务:
资源简介:
ISACL数据集是专门为训练神经网络分类器以识别版权或专有数据泄露风险而精心策划的。数据集由版权材料及其基于相似性评分的风险标签组成,这些相似性评分是从LLM在预填充阶段的内部状态中提取的。该数据集用于训练模型,以便在内容生成之前主动评估潜在的风险,从而实现早期干预并防止敏感信息的暴露。
The ISACL dataset is meticulously curated specifically for training neural network classifiers to identify copyright or proprietary data leakage risks. The dataset consists of copyrighted materials and their risk labels based on similarity scores extracted from the internal states of LLMs during the prefill stage. This dataset is used to train models to proactively evaluate potential risks prior to content generation, enabling early intervention and preventing the exposure of sensitive information.
提供机构:
City University of Hong Kong, Microsoft, University of Illinois Urbana-Champaign, Google LLC, Arizona State University, Stevens Institute of Technology
创建时间:
2025-08-25
原始信息汇总
数据集概述
数据集名称
Internal states leakage
数据集来源
通过执行"git clone https://github.com/chentong0/copy-bench.git"命令获取,位于"copyright"文件夹下
数据处理流程
- 生成输出(scripts/generate.py)
- 评估rouge分数(scripts/eval_literal_copying.py)
- 划分为侵权/非侵权类别(scripts/label.py)
- 通过带标签的输入提取内部状态,使用内部状态训练customMLP(scripts/train.py --> ipynb)
搜集汇总
数据集介绍
构建方式
ISACL数据集的构建基于精选的受版权保护材料,通过提取文学作品的连续句子对作为输入和参考文本,形成训练三元组(输入、输出、参考)。利用大型语言模型生成文本续写,并通过Rouge-L分数设定阈值划分风险标签,确保数据清晰区分高风险和低风险样本。该过程结合FAISS向量索引与SQLite结构化存储,实现高效检索与语义匹配,为模型训练提供高质量且法律合规的数据基础。
特点
该数据集的核心特点在于其前瞻性风险检测机制,专注于分析语言模型预填充阶段的内部状态而非生成输出,从而实现对版权数据泄露的早期识别。其集成检索增强生成(RAG)系统,通过外部知识库引入参考文本,增强语义对比的准确性。数据集覆盖多种模型规模(如Llama和Mistral系列),并支持对字面复制与非字面复制的双重评估,体现了多维度风险分析的先进性。
使用方法
使用ISACL数据集时,需首先提取语言模型预填充阶段的内部状态(如最终编码层的平均表示),并将其与检索到的参考文本嵌入结合。通过训练多层感知机分类器,预测输入文本与版权材料的相似性风险概率。该方法可直接集成至AI工作流,实现实时风险评估,并在检测到高风险时中断生成过程,确保合规性。具体实施需依赖PyTorch和HuggingFace库,并配置GPU加速处理。
背景与挑战
背景概述
ISACL数据集由香港城市大学、微软、伊利诺伊大学厄巴纳-香槟分校等机构的研究团队于2025年联合创建,旨在解决大语言模型训练过程中版权数据泄露的核心问题。该数据集通过分析模型前馈阶段的内部状态,实现对版权材料泄露风险的早期检测,突破了传统后生成检测的局限性。其创新性在于将检索增强生成技术与内部状态分析相结合,为自然语言处理领域的版权合规和伦理标准建立了新的评估范式,对推动人工智能在法律框架下的负责任发展具有里程碑意义。
当前挑战
该数据集主要应对大语言模型生成文本时无意复制受版权保护训练数据的风险检测挑战,具体包括模型对训练数据的记忆性重现、语义级相似性判断以及实时检测的延迟问题。构建过程中需解决多维度技术难题:如何从模型内部状态提取有效语义特征、建立高精度版权材料检索系统、设计兼顾敏感性与特异性的评估指标,以及在不同规模模型上保持检测一致性。此外,还需处理版权材料的合法使用授权与数据匿名化之间的平衡,确保研究符合伦理规范。
常用场景
经典使用场景
在自然语言处理领域的大规模语言模型应用中,ISACL数据集被广泛用于评估和检测训练数据泄露风险。该数据集通过构建输入文本与参考版权材料的对应关系,为研究者提供了分析模型内部状态的基准工具。其经典使用场景包括在文本生成任务中,通过提取预填充阶段的内部状态表示,训练神经网络分类器来预测潜在的版权内容泄露,从而实现生成前的风险干预。
衍生相关工作
ISACL数据集衍生了一系列经典研究工作,包括基于内部状态的幻觉检测、知识边界感知增强和事实辨别分析。这些工作扩展了内部状态分析的应用范围,例如Ji等人利用类似方法揭示模型的幻觉风险,Ni等人通过内部状态增强知识边界感知。此外,该数据集还促进了版权保护技术的发展,为多模态内容的版权风险评估提供了基础。
数据集最近研究
最新研究方向
随着大语言模型在自然语言处理领域的广泛应用,其训练数据中受版权保护内容的泄露风险日益凸显。ISACL数据集作为内部状态分析工具,聚焦于解码前阶段对模型隐藏状态的监测,通过检索增强生成技术实现实时风险评估。当前研究热点集中于结合多模态检索与动态阈值优化,以提升对非文字性抄袭(如概念复用与语义转述)的检测精度。该方向对推动人工智能伦理治理、保障知识产权合规性具有深远影响,为工业级应用提供了可扩展的解决方案。
相关研究论文
- 1ISACL: Internal State Analyzer for Copyrighted Training Data LeakageCity University of Hong Kong, Microsoft, University of Illinois Urbana-Champaign, Google LLC, Arizona State University, Stevens Institute of Technology · 2025年
以上内容由遇见数据集搜集并总结生成



