MultiPriv
收藏MultiPriv 数据集概述
📌 数据集简介
- 名称:MultiPriv
- 类型:多语言(中英文)、多模态(文本与图像)隐私数据集
- 目的:支持大模型隐私风险研究,包括隐私识别、隐私保护生成和隐私风险评估
- 特点:
- 包含大量个人身份识别信息(PII)
- 支持文本与图像中的PII实体识别
- 适用于隐私感知的文本/图像生成任务
- 可用于大模型中的隐私泄露风险建模与评估
📊 数据集构成
文本数据
- 语言:中文、英文
- 文件结构:
data_person_1000.json:1000条英文个人信息数据data_person_1000_zh.json:1000条中文个人信息数据prompt_person_1000.json:英文prompt集合prompt_person_1000_zh.json:中文prompt集合
- 格式:
.jsonl,每行包含一个文档
图像数据
- 语言:中文、英文
- 类别:
- 生物识别信息(人脸、指纹等)
- 特定身份信息(护照、身份证等)
- 医疗健康信息(病历、处方等)
- 金融账户信息(银行卡、交易记录等)
- 行踪轨迹信息(机票、地图等)
- 财产设备信息(房产证、序列号等)
- 通用身份信息(姓名、地址等)
- 格式:
.jpg和.png,包含实体信息和语言标签
🔖 实体类型
文本隐私实体
- PERSON:姓名、性别、年龄、地址、国籍、职业
- CODE:身份证号、护照号
- CONTACT:电子邮箱、电话号码
- Health:症状、诊断结果
- MEDIAL:用药信息、医生记录
- PAYMENT:交易信息
- ASSET:信用分数、收入
图像隐私实体
- 生物识别信息:人脸、指纹
- 特定身份信息:姓名、身份证号、电话
- 医疗健康信息:疾病、药物、医院
- 金融账户信息:银行卡号、交易历史
- 行踪轨迹信息:位置数据、旅行记录
- 财产设备信息:房地产、车辆、电子设备
- 通用身份信息:性别、国籍
🎯 应用场景
- PII命名实体识别(NER)
- 多模态隐私检测
- Prompt隐私过滤与屏蔽
- 大模型隐私风险评估
- 大模型安全对齐与红队测试
- 隐私保护文本/图像生成
⚙️ 格式规范
文本格式示例
json { "name": "Bobby JacksOn", "gender": "Male", "age": 30, "location": "97 Lincoln Street", "nationality": "Portugal", "occupation": "jeweler", "idCardNumbers": 116726199508279319, "emailAddress": "aaliyah.popova4783@aol.edu", "phoneNumbers": "(95) 94215-7906", "symptoms": "Unexplained lumps, persistent fatigue, weight loss", "diagnosticOutcome": "Cancer", "medicationDetails": "Paracetamol", "doctor": "Matthew Smith", "transactionDetails": "TRF FROM Indiaforensic SERVICES", "creditScore": 619, "income": 101348.88, "naturalParagraph": "..." }
🛡️ 隐私与伦理声明
- 所有数据均为合成生成、脱敏处理或合法采集
- 不包含任何真实可识别的身份信息
- 仅用于研究用途与模型安全开发,禁止商业用途或恶意使用
📊 统计数据
| 模态 | 语言 | 样本数 | 实体数 |
|---|---|---|---|
| 文本 | 中文 | 5,000 | 12,345 |
| 文本 | 英文 | 5,000 | 11,234 |
| 图像 | 中文 | 405 | 700+ |
| 图像 | 英文 | 405 | 700+ |
📄 使用协议
- 许可证:CC BY-NC-SA 4.0
- 允许用途:非商业用途,需署名并相同方式共享
📣 引用
bibtex @misc{your_dataset2025, title={Multilingual and Multimodal Privacy Entity Dataset}, author={CyberChangan}, year={2025}, howpublished={url{https://github.com/CyberChangAn/MutilPriv}} }
📬 联系方式
- 邮箱:xtsun@stu.xidian.edu.cn




