LeakPII
收藏Merger-as-a-Stealer 数据集概述
数据集简介
本项目是论文《Merger-as-a-Stealer: Stealing Targeted PII from Aligned LLMs with Model Merging》的官方开源内容。论文揭示了模型合并过程中的一个安全漏洞,恶意合并者可以通过模型合并从对齐的大型语言模型(LLMs)中提取目标个人识别信息(PII),并提出了相应的攻击框架Merger-as-a-Stealer。
论文链接
Merger-as-a-Stealer: Stealing Targeted PII from Aligned LLMs with Model Merging
项目结构
项目包含以下目录和文件:
Merger-as-a-Stealer ├── LICENSE ├── README.md ├── _config.yml ├── dataset │ ├── Proposed-Alignment │ │ ├── Proposed-PII-SSN-dpo.json │ │ ├── Proposed-PII-SSN-kto.json │ │ ├── Proposed-PII-address-dpo.json │ │ ├── Proposed-PII-address-kto.json │ │ ├── Proposed-PII-bitcoin-dpo.json │ │ ├── Proposed-PII-bitcoin-kto.json │ │ ├── Proposed-PII-email-dpo.json │ │ ├── Proposed-PII-email-kto.json │ │ ├── Proposed-PII-phone-dpo.json │ │ └── Proposed-PII-phone-kto.json │ ├── Proposed-AttackDataset │ │ ├── Proposed-PII-SSN-attack.json │ │ ├── Proposed-PII-address-attack.json │ │ ├── Proposed-PII-bitcoin-attack.json │ │ ├── Proposed-PII-email-attack.json │ │ └── Proposed-PII-phone-attack.json │ └── ProposedDataset │ ├── Proposed-PII-SSN.json │ ├── Proposed-PII-address.json │ ├── Proposed-PII-bitcoin.json │ ├── Proposed-PII-email.json │ ├── Proposed-PII-phone.json │ └── Proposed-PII200.json └── evaluate ├── Proposed-evaluate-SSN.py ├── Proposed-evaluate-address.py ├── Proposed-evaluate-bitcoin.py ├── Proposed-evaluate-email.py └── Proposed-evaluate-phone.py
采用的PII数据集
LeakPII
这是一个更全面的 dataset,包含 1,000 个 PII 数据项,用于模拟受害者用户的 PII。每个数据项包含多个 PII 属性,如姓名、职位、电话号码、传真号码、生日、社会保障号码(SSN)、地址、电子邮件、比特币地址和 UUID。所有数据都是根据伦理政策合成生成的,不包含真实世界的个人信息。
LeakPII 细节
本研究涉及大型语言模型(LLMs)隐私窃取的敏感问题,并通过标准化合成数据基准推进隐私保护技术。为了声明本研究的规范性,数据集的内容进行了说明。我们的数据集通过格式感知合成和随机组合严格构建,确保结构真实性同时实现与现实世界实体的解耦。在构建过程中,受监管字段(如电话号码、SSN、比特币地址)的数据生成遵循特定领域的模式,并针对官方标准进行验证(电话号码遵循 NANP 标准,SSN 采用社会保障管理局指南)。非结构化属性通过组合随机化合成。
姓名
姓名的生成通过从独立的给定名称和姓氏池中随机抽样,并加入职业前缀以增强社交现实感。
地址
地址生成过程创建符合典型美国地址格式的地址数据。
比特币
比特币地址生成遵循广泛使用的 Base58Check 编码规范。
电子邮件
电子邮件地址的生成通过从常用电子邮件域名池中随机选择一个后缀,并将选定的名称与随机生成的四位到六位数字序列组合。
电话
电话号码生成格式为带有分隔符的 10 位数字序列,符合北美编号计划(NANP)。
社会保障号码
SSN 的生成遵循标准 SSN 格式。
评估代码
本项目提供了针对不同大型语言模型(如 LLaMA-2-13B-Chat、DeepSeek-R1-DistillQwen-14B、Qwen1.5-14B-Chat 等)的 PII 提取攻击的评估代码。代码支持不同的攻击设置(如 Naive 和 Practical)、不同的模型合并算法(如 Slerp 和 Task Arithmetic)和不同的评估指标(如 Exact Match、Memorization Score、Prompt Overlap)。
贡献与反馈
如果在使用本项目时有任何问题、建议或想要贡献代码,可以通过提交 Issue 或 Fork 仓库并提交 Pull Request 的方式联系我们。
许可
本项目遵循 Apache License 2.0 许可。许可全文可在项目根目录下的 LICENSE 文件中找到。在使用代码、数据集或项目的任何其他组件时,必须遵守 Apache License 2.0 的条款和条件。




