多类型PII数据集

Name: 多类型PII数据集
Creator: 北卡罗来纳州立大学, 威廉与玛丽学院
Published: 2025-12-09 02:47:40
License: 暂无描述

arXiv2025-12-09 更新2025-12-10 收录

下载链接：

https://anonymous.4open.science/r/pii_final-42A1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由北卡罗来纳州立大学和威廉与玛丽学院联合构建，聚焦代码模型中隐私风险研究，包含从真实软件仓库（如GitHub）提取的多种个人身份信息（PII）类型，如API密钥、密码、IP地址等。数据通过自动化检测、大模型辅助清洗和人工验证三重流程确保质量，旨在分析不同PII类型在代码大模型训练中的动态学习特性与泄漏风险关联。其核心应用领域为代码模型的隐私安全研究，通过因果推断方法揭示PII类型与模型记忆行为的关联，为设计类型敏感的防御机制提供理论基础。

This dataset was jointly developed by North Carolina State University and the College of William & Mary, focusing on privacy risk research in code models. It contains various types of Personally Identifiable Information (PII) extracted from real software repositories such as GitHub, including API keys, passwords, IP addresses, and others. The data quality is guaranteed through a three-stage workflow: automated detection, large language model (LLM)-assisted cleaning, and manual verification. This dataset aims to analyze the dynamic learning characteristics of different PII types during the training of code large language models and their correlation with leakage risks. Its core application domain is privacy security research for code models, where causal inference methods are employed to uncover the association between PII types and model memory behaviors, providing a theoretical foundation for designing type-sensitive defense mechanisms.

提供机构：

北卡罗来纳州立大学, 威廉与玛丽学院

创建时间：

2025-12-09

搜集汇总

数据集介绍

构建方式

在代码模型隐私风险研究领域，构建高质量的多类型PII数据集是深入分析的基础。该数据集从广泛用于训练LLM4Code的真实代码语料库中系统构建，具体选取了The Stack v2数据集的Java子集作为源数据。构建过程采用自动化流水线，融合了基于正则表达式的规则匹配、专用PII检测模型StarPII的识别以及启发式规则过滤。为确保数据的准确性与可靠性，研究进一步引入了大语言模型辅助的精细化评估，对候选PII实例的格式、上下文和真实性进行多维度评分，并最终由具备丰富Java开发经验的研究人员进行抽样人工验证，从而形成了一个包含电子邮件、密钥、IP地址、姓名、用户名和密码六种类型、共计9000个代码文件的高质量数据集。

特点

该数据集的核心特点在于其高度的真实性与类型异质性。所有数据均源自实际用于训练代码大模型的公开代码仓库，确保了研究场景的现实相关性。数据集明确区分了六种不同类型的个人可识别信息，打破了以往研究将PII视为同质类别的局限，为探究不同类型PII在模型学习与泄露风险上的差异性提供了基础。数据经过多轮自动化与人工校验，具有较高的准确度，其构建方法集成了规则、模型与专家智慧，形成了一套可复现的严谨流程，为后续分析不同类型PII的训练动态与因果推断奠定了可靠的数据基石。

使用方法

该数据集主要用于探究代码大模型中不同类型PII的隐私泄露风险。研究者首先利用该数据集对多种架构与规模的LLM4Code进行微调，并在微调过程中捕获每个PII实例的训练动态指标，即模型对其预测的置信度与变异性。随后，基于这些训练动态，将PII实例划分为易学习、难学习和模糊三类。在评估阶段，通过模拟现实攻击场景，构建包含目标PII上下文但不包含其本身的查询输入，对微调后的模型进行黑盒攻击测试，统计其成功泄露PII的比率。最终，结合训练动态分类与攻击成功率，构建结构因果模型，以量化分析不同学习难度对PII泄露风险的因果效应，从而揭示隐私风险的内在机制。

背景与挑战

背景概述

随着代码大语言模型在软件工程领域的广泛应用，其训练数据中蕴含的个人可识别信息隐私泄露风险日益凸显。多类型PII数据集由北卡罗来纳州立大学与威廉玛丽学院的研究团队于2025年构建，旨在系统探究六类PII在模型训练动态中的异质性风险。该数据集从真实开源代码库中提取电子邮件、密钥、IP地址、姓名、用户名及密码等敏感信息，通过自动化检测与人工验证相结合的方式构建高质量样本。其核心研究在于揭示不同类型PII在模型记忆机制中的差异化表现，为构建细粒度隐私防御体系提供实证基础，对提升代码模型的合规性与可信度具有重要推动作用。

当前挑战

该数据集致力于解决代码大语言模型中PII泄露风险评估的粒度不足问题，传统研究将PII视为同质类别，忽视了不同类型信息在格式、分布与上下文语境中的本质差异，导致风险量化存在偏差。在构建过程中面临多重挑战：首先，从海量代码库中精准识别真实PII需克服检测工具高误报率的局限，需融合正则表达式、启发式规则与LLM辅助判断的混合方法；其次，密码与密钥等类型因包含大量测试用例与占位符，需设计复杂的预检规则与阈值策略以保障数据纯净性；此外，数据标注需平衡自动化效率与人工验证可靠性，通过抽样统计与专家评估确保样本敏感性的置信区间。

常用场景

经典使用场景

在代码大模型隐私风险研究领域，多类型PII数据集为深入探索不同类型个人可识别信息的记忆与泄露机制提供了关键实验基础。该数据集通过从真实开源代码库中系统提取包含密钥、用户名、邮箱、密码、姓名和IP地址等六类敏感信息的代码片段，构建了高质量、类型平衡的样本集合。研究者利用该数据集对多种架构与规模的代码大模型进行微调，并系统分析各类PII在训练过程中的动态特征，从而揭示不同类型敏感信息在模型记忆行为上的异质性。

实际应用

在软件工程安全实践中，该数据集为开发针对性的隐私保护工具提供了重要参考。基于不同类型PII的泄露风险差异，企业可以优先检测和防护高风险类别如IP地址和密钥，同时优化代码审查流程以减少敏感信息误提交。数据集构建中采用的LLM辅助精炼方法也为自动化PII检测系统提供了可借鉴的技术路径，能够显著降低误报率，提升敏感信息识别的准确性与效率。

衍生相关工作

该数据集推动了代码隐私研究向细粒度风险分析方向发展，催生了多项关注PII异质性的后续研究。例如基于学习难度分类的防御机制设计、针对特定PII类型的对抗性训练方法，以及结合因果推断的隐私风险评估框架。相关工作进一步拓展了数据集的适用范围，将其应用于更广泛的编程语言和模型架构，形成了从风险识别到防御实施的全链条研究体系。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集