ai4privacy/pii-masking-financial-pfi-preview
收藏Hugging Face2026-04-04 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/ai4privacy/pii-masking-financial-pfi-preview
下载链接
链接失效反馈官方服务:
资源简介:
---
license: cc-by-4.0
language:
- en
- de
- fr
- es
- it
- nl
- pt
- pl
- cs
- ro
- hu
- bg
- el
- hr
- sk
- sl
- sr
- lt
- lv
- et
- fi
- da
- sv
task_categories:
- token-classification
tags:
- pii
- privacy
- ner
- synthetic-data
- gdpr
- european
- preview
pretty_name: "PII Masking Personal Financial Information (PFI) — Preview"
size_categories:
- n<1K
configs:
- config_name: default
data_files:
- split: preview
path: "data/*.jsonl"
---
# PII Masking Personal Financial Information (PFI) — Preview
**50 sample entries** from the PII-Masking-2M European release by [AI4Privacy](https://ai4privacy.com).
> Source text and PII values are redacted in this preview. Contact us for full access.
## Label Distribution

## Language Distribution

## European Coverage

## Full Dataset
The complete dataset is available at [`ai4privacy/pii-masking-financial-pfi-200k`](https://huggingface.co/datasets/ai4privacy/pii-masking-financial-pfi-200k).
## Part of PII-Masking-2M
| Dataset | Category |
|---------|----------|
| [pii-masking-health-phi](https://huggingface.co/datasets/ai4privacy/pii-masking-health-phi-preview) | Personal Health Information |
| [pii-masking-financial-pfi](https://huggingface.co/datasets/ai4privacy/pii-masking-financial-pfi-preview) | Personal Financial Information |
| [pii-masking-digital-pdi](https://huggingface.co/datasets/ai4privacy/pii-masking-digital-pdi-preview) | Personal Digital Information |
| [pii-masking-work-pwi](https://huggingface.co/datasets/ai4privacy/pii-masking-work-pwi-preview) | Personal Work & HR Information |
| [pii-masking-location-pli](https://huggingface.co/datasets/ai4privacy/pii-masking-location-pli-preview) | Personal Location & Travel Information |
| [pii-masking-openpii](https://huggingface.co/datasets/ai4privacy/pii-masking-openpii-preview) | General Open PII |
---
## Contact
- Partnerships: partnerships@ai4privacy.com
- Website: [ai4privacy.com](https://ai4privacy.com)
- Discord: [https://discord.gg/FmzWshaaQT](https://discord.gg/FmzWshaaQT)
Ai4Privacy is a project affiliated with [Ai Suisse SA](https://www.aisuisse.com/).
## p5y Data Analytics
This dataset is built on the [p5y](https://p5y.org) framework - think of it as i18n but for privacy. Just as i18n (internationalization) translates content into different locales, p5y translates sensitive data into privacy-safe formats through a standardized 3-step approach:
1. **Awareness** - Scan and markup private entities in unstructured text, producing a structured privacy mask with entity types, distribution, density, and risk assessment.
2. **Protection** - Control identified personal data through masking, pseudonymization, or k-anonymization, tailored to the specific use case and regulatory requirements.
3. **Quality Assurance** - Measure remaining privacy risk after anonymization, evaluating de-anonymization risks through expert annotation and automated assessment.
Learn more at [p5y.org](https://p5y.org)
提供机构:
ai4privacy
搜集汇总
数据集介绍

构建方式
在金融隐私保护领域,该数据集作为PII-Masking-2M欧洲版本中个人财务信息(PFI)类别的预览样本,其构建遵循了p5y隐私框架的标准化流程。该框架通过三个核心阶段实现数据转换:首先进行隐私意识扫描,在非结构化文本中标记私人实体,生成包含实体类型、分布、密度及风险评估的结构化隐私掩码;随后实施保护措施,根据具体用例与法规要求,对识别出的个人数据采取掩码、假名化或k-匿名化处理;最后通过质量保证阶段,借助专家标注与自动化评估,衡量匿名化后剩余的隐私风险,确保数据脱敏的有效性与安全性。
特点
该数据集聚焦于欧洲范围内的个人财务信息,覆盖了包括英语、德语、法语、西班牙语等在内的24种欧洲语言,并涉及英国、法国、德国、北欧、巴尔干及伊比利亚半岛等25个国家和地区,体现了显著的多语言与跨地域特性。作为预览版本,它提供了50条经过精心处理的样本条目,所有原始文本及个人可识别信息(PII)值均已被脱敏处理,旨在展示数据隐私保护的实际效果。数据集隶属于更广泛的PII-Masking-2M项目,与健康信息、数字信息、工作信息等其他隐私类别并列,共同构成了一个系统化的隐私保护数据资源体系。
使用方法
该预览数据集主要用于演示与评估目的,用户可通过HuggingFace平台直接访问其默认配置下的JSONL格式文件。在自然语言处理任务中,它特别适用于令牌分类,尤其是命名实体识别(NER)模型的训练与测试,帮助研究者理解和模拟金融文本中个人可识别信息的检测与掩码技术。对于需要完整数据资源的用户,可联系AI4Privacy获取包含20万条目的完整数据集,或探索同一项目下的其他类别数据集以进行跨领域隐私研究。实际应用中,建议结合p5y框架文档,深入理解其三步隐私转换流程,从而在合规前提下有效利用数据进行隐私增强技术的开发与验证。
背景与挑战
背景概述
在数字时代,个人可识别信息的保护已成为全球性议题,尤其在金融领域,个人财务信息的泄露可能导致严重的经济损失与隐私侵犯。由AI4Privacy机构发布的PII-Masking-2M数据集,作为一项涵盖欧洲多语言环境的隐私保护资源,专注于个人财务信息的匿名化处理。该数据集依托p5y框架,通过结构化方法对敏感实体进行标记与掩码,旨在应对通用数据保护条例等法规要求,为金融文本的隐私增强技术提供关键训练与评估基础。其创建不仅反映了学术界与工业界对数据隐私的日益重视,也为跨语言隐私保护模型的开发奠定了实践基石。
当前挑战
该数据集致力于解决个人财务信息在自然语言处理中的隐私保护挑战,核心在于精准识别与掩码多语言文本中的敏感实体,如账户号码与交易记录,同时需平衡数据效用与隐私风险。构建过程中的主要挑战包括:覆盖24种欧洲语言的语料收集与标注,确保文化及语境差异下的标注一致性;遵循GDPR等严格法规,设计合规的匿名化流程;以及在合成数据生成中模拟真实金融文本的复杂性,避免引入偏差或降低数据质量。这些挑战共同指向了隐私保护技术在多语言、多领域应用中的可行性与可靠性问题。
常用场景
经典使用场景
在金融隐私保护领域,PII-Masking-Financial-PFI数据集为个人金融信息的匿名化处理提供了关键支持。该数据集通过标注多种欧洲语言文本中的个人金融实体,如账户号码、交易金额等,为命名实体识别模型提供了丰富的训练与评估资源。研究人员利用这些标注数据,能够系统地开发与优化针对金融文本的隐私保护算法,确保在数据共享与分析过程中有效遮蔽敏感信息,同时维持文本的语义完整性。
实际应用
在实际应用中,该数据集为金融机构、金融科技公司以及合规审计部门提供了技术基础。企业可利用基于此数据集训练的模型,自动化处理客户通信、财务报告或交易记录中的敏感数据,实现高效合规的数据脱敏。这不仅降低了数据泄露风险,也保障了在跨境业务或内部数据分析中能够合法、安全地利用金融文本数据,支撑风险分析、客户服务智能化等业务场景。
衍生相关工作
围绕该数据集,已衍生出一系列专注于金融隐私保护的经典研究工作。例如,基于其构建的PII-Masking-2M系列中的其他领域数据集,共同推动了跨健康、数字、工作等多场景的隐私保护模型开发。相关研究多集中于改进命名实体识别在金融领域的鲁棒性、探索更高效的差分隐私或k-匿名化集成方法,以及构建端到端的隐私保护文本处理流水线,这些工作显著丰富了隐私增强技术在实际产业中的落地路径。
以上内容由遇见数据集搜集并总结生成



