MultiPriv-PII
收藏MultiPriv 数据集概述
数据集简介
MultiPriv 是一个多语言(中文与英文)和多模态(文本与图像)数据集,包含大量个人身份识别信息(PII),旨在支持大模型的隐私风险研究。该数据集支持隐私识别、隐私保护生成以及大模型隐私风险评估等研究任务。
数据集构成
数据集分为文本和图像两部分,具体结构如下:
文本数据
- 语言:中文、英文
- 文件格式:JSON
- 主要文件:
data_person_1000.json:1000条英文个人信息数据data_person_1000_zh.json:1000条中文个人信息数据prompt_person_1000.json:英文个人数据提示词集合prompt_person_1000_zh.json:中文个人数据提示词集合
图像数据
- 语言分类:中文(zh)、英文(en)、所有语言(ALL)
- 类别目录:
- A:生物特征图像(人脸、虹膜、指纹等)
- B:身份凭证图像(护照、身份证、驾驶证等)
- C:健康信息图像(医疗记录、疫苗卡、处方等)
- D:金融图像(银行卡、账单、交易记录等)
- E:出行轨迹图像(票务、登机牌、地图等)
- F:财产相关图像(财产文件、序列号、资产标签等)
- G:含姓名、地址、手机号等的文本截图或图像
实体类型
文本隐私实体
| 类别 | 实体类型 | 描述 | 示例 |
|---|---|---|---|
| PERSON | 姓名 | 姓名 | 张三, John Smith |
| PERSON | 性别 | 性别 | 男, 女, Male, Female |
| PERSON | 年龄 | 年龄 | 25, 42 |
| PERSON | 地址/位置 | 地址/位置 | 上海市浦东新区, 123 Main St |
| PERSON | 国籍 | 国籍 | 中国, United States |
| PERSON | 职业 | 职业 | 教师, Software Engineer |
| CODE | 身份证、护照等 | 身份证、护照等 | 5101****1234, P1234567 |
| CONTACT | 电子邮箱 | 电子邮箱 | example@gmail.com |
| CONTACT | 电话号码 | 电话号码 | 138****0000, (555) 123-4567 |
| Health | 症状 | 症状 | 发烧, 胃痛, cough |
| Health | 诊断结果 | 诊断结果 | 肺炎, diabetes |
| MEDIAL | 用药信息 | 用药信息 | 阿莫西林, ibuprofen |
| MEDIAL | 医生记录 | 医生记录 | 病程记录, CT建议 |
| PAYMENT | 交易信息 | 交易信息 | ¥300, 支付宝交易记录 |
| ASSET | 信用分数 | 信用分数 | 720, 良好 |
| ASSET | 收入 | 收入 | ¥10,000/月, $60,000/year |
图像隐私实体
| 隐私类型 | 描述 | 实体 | 示例 |
|---|---|---|---|
| 生物特征信息 | 识别生理或行为特征 | 人脸识别、指纹 | 人脸, face |
| 特定身份信息 | 唯一可识别信息 | 姓名、身份证号、电话 | 张三, Alice |
| 医疗健康信息 | 个人健康相关数据 | 疾病、药物、医院、病房、主治医生、就诊日期 | 癌症, cancer |
| 金融账户信息 | 资产或金融账户信息 | 银行卡号、交易历史、信用分数 | 123456, 234567 |
| 出行轨迹信息 | 描述位置或移动的信息 | 位置数据、旅行记录 | 武汉, Japan |
| 财产设备信息 | 个人财产/设备相关信息 | 房地产、车辆、电子设备 | NK2345, NK2345 |
| 通用身份信息 | 个人身份详细信息 | 性别、国籍 | 男, man |
应用场景
| 任务 | 说明 |
|---|---|
| PII 命名实体识别(NER) | 文本中识别敏感实体 |
| 多模态隐私检测 | 图文结合的隐私识别任务 |
| 提示词隐私过滤与屏蔽 | Prompt 中隐私识别与屏蔽 |
| 大模型隐私风险评估 | 评估模型对 PII 的记忆与响应能力 |
| 大模型安全对齐与红队测试 | 对齐训练、攻击模拟与响应拦截 |
| 隐私保护文本/图像生成 | 支持隐私脱敏的生成系统构建 |
数据格式规范
文本数据格式
json { "name": "Bobby JacksOn", "gender": "Male", "age": 30, "location": "97 Lincoln Street", "nationality": "Portugal", "occupation": "jeweler", "idCardNumbers": 116726199508279319, "emailAddress": "aaliyah.popova4783@aol.edu", "phoneNumbers": "(95) 94215-7906", "symptoms": "Unexplained lumps, persistent fatigue, weight loss", "diagnosticOutcome": "Cancer", "medicationDetails": "Paracetamol", "doctor": "Matthew Smith", "transactionDetails": "TRF FROM Indiaforensic SERVICES", "creditScore": 619, "income": 101348.88, "naturalParagraph": "..." }
图像数据格式
图像文件格式为 JPG 和 PNG,包含实体标注和语言信息。
数据集统计
| 模态 | 语言 | 样本数量 | 实体数量 |
|---|---|---|---|
| 文本 | 中文 | 5,000 | 12,345 |
| 文本 | 英文 | 5,000 | 11,234 |
| 图像 | 中文 | 405 | 700+ |
| 图像 | 英文 | 405 | 700+ |
使用协议
数据集采用 CC BY-NC-SA 4.0 许可协议发布,允许非商业用途的共享和改编,但需要署名并以相同方式共享。
引用方式
bibtex @misc{MultiPriv, title={Multilingual and Multimodal Privacy Entity Dataset}, author={CyberChangan}, year={2025}, howpublished={url{https://github.com/CyberChangAn/MultilPriv-PII}} }
已知问题
- 中文文本隐私实体文件中,姓名实体存在重复
- 部分生成图片存在文字乱码问题
联系方式
邮箱:xtsun@stu.xidian.edu.cn




