ISACL dataset

Name: ISACL dataset
Creator: City University of Hong Kong, Microsoft, University of Illinois Urbana-Champaign, Google LLC, Arizona State University, Stevens Institute of Technology
Published: 2025-08-25 16:04:20
License: 暂无描述

arXiv2025-08-25 更新2025-08-28 收录

下载链接：

https://github.com/changhu73/Internal_states_leakage

下载链接

链接失效反馈

官方服务：

资源简介：

ISACL数据集是专门为训练神经网络分类器以识别版权或专有数据泄露风险而精心策划的。数据集由版权材料及其基于相似性评分的风险标签组成，这些相似性评分是从LLM在预填充阶段的内部状态中提取的。该数据集用于训练模型，以便在内容生成之前主动评估潜在的风险，从而实现早期干预并防止敏感信息的暴露。

提供机构：

City University of Hong Kong, Microsoft, University of Illinois Urbana-Champaign, Google LLC, Arizona State University, Stevens Institute of Technology

创建时间：

2025-08-25

原始信息汇总

数据集概述

数据集名称

Internal states leakage

数据集来源

通过执行"git clone https://github.com/chentong0/copy-bench.git"命令获取，位于"copyright"文件夹下

数据处理流程

生成输出（scripts/generate.py）
评估rouge分数（scripts/eval_literal_copying.py）
划分为侵权/非侵权类别（scripts/label.py）
通过带标签的输入提取内部状态，使用内部状态训练customMLP（scripts/train.py --> ipynb）

搜集汇总

数据集介绍

构建方式

ISACL数据集的构建基于精选的受版权保护材料，通过提取文学作品的连续句子对作为输入和参考文本，形成训练三元组（输入、输出、参考）。利用大型语言模型生成文本续写，并通过Rouge-L分数设定阈值划分风险标签，确保数据清晰区分高风险和低风险样本。该过程结合FAISS向量索引与SQLite结构化存储，实现高效检索与语义匹配，为模型训练提供高质量且法律合规的数据基础。

特点

该数据集的核心特点在于其前瞻性风险检测机制，专注于分析语言模型预填充阶段的内部状态而非生成输出，从而实现对版权数据泄露的早期识别。其集成检索增强生成（RAG）系统，通过外部知识库引入参考文本，增强语义对比的准确性。数据集覆盖多种模型规模（如Llama和Mistral系列），并支持对字面复制与非字面复制的双重评估，体现了多维度风险分析的先进性。

使用方法

使用ISACL数据集时，需首先提取语言模型预填充阶段的内部状态（如最终编码层的平均表示），并将其与检索到的参考文本嵌入结合。通过训练多层感知机分类器，预测输入文本与版权材料的相似性风险概率。该方法可直接集成至AI工作流，实现实时风险评估，并在检测到高风险时中断生成过程，确保合规性。具体实施需依赖PyTorch和HuggingFace库，并配置GPU加速处理。

背景与挑战

背景概述

ISACL数据集由香港城市大学、微软、伊利诺伊大学厄巴纳-香槟分校等机构的研究团队于2025年联合创建，旨在解决大语言模型训练过程中版权数据泄露的核心问题。该数据集通过分析模型前馈阶段的内部状态，实现对版权材料泄露风险的早期检测，突破了传统后生成检测的局限性。其创新性在于将检索增强生成技术与内部状态分析相结合，为自然语言处理领域的版权合规和伦理标准建立了新的评估范式，对推动人工智能在法律框架下的负责任发展具有里程碑意义。

当前挑战

该数据集主要应对大语言模型生成文本时无意复制受版权保护训练数据的风险检测挑战，具体包括模型对训练数据的记忆性重现、语义级相似性判断以及实时检测的延迟问题。构建过程中需解决多维度技术难题：如何从模型内部状态提取有效语义特征、建立高精度版权材料检索系统、设计兼顾敏感性与特异性的评估指标，以及在不同规模模型上保持检测一致性。此外，还需处理版权材料的合法使用授权与数据匿名化之间的平衡，确保研究符合伦理规范。

常用场景

经典使用场景

在自然语言处理领域的大规模语言模型应用中，ISACL数据集被广泛用于评估和检测训练数据泄露风险。该数据集通过构建输入文本与参考版权材料的对应关系，为研究者提供了分析模型内部状态的基准工具。其经典使用场景包括在文本生成任务中，通过提取预填充阶段的内部状态表示，训练神经网络分类器来预测潜在的版权内容泄露，从而实现生成前的风险干预。

衍生相关工作

ISACL数据集衍生了一系列经典研究工作，包括基于内部状态的幻觉检测、知识边界感知增强和事实辨别分析。这些工作扩展了内部状态分析的应用范围，例如Ji等人利用类似方法揭示模型的幻觉风险，Ni等人通过内部状态增强知识边界感知。此外，该数据集还促进了版权保护技术的发展，为多模态内容的版权风险评估提供了基础。

数据集最近研究