five

ai4privacy/pii-masking-location-pli-preview

收藏
Hugging Face2026-04-04 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/ai4privacy/pii-masking-location-pli-preview
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: cc-by-4.0 language: - en - de - fr - es - it - nl - pt - pl - cs - ro - hu - bg - el - hr - sk - sl - sr - lt - lv - et - fi - da - sv task_categories: - token-classification tags: - pii - privacy - ner - synthetic-data - gdpr - european - preview pretty_name: "PII Masking Personal Location & Travel Information (PLI) — Preview" size_categories: - n<1K configs: - config_name: default data_files: - split: preview path: "data/*.jsonl" --- # PII Masking Personal Location & Travel Information (PLI) — Preview **50 sample entries** from the PII-Masking-2M European release by [AI4Privacy](https://ai4privacy.com). > Source text and PII values are redacted in this preview. Contact us for full access. ## Label Distribution ![Bar chart showing PII label distribution across entity types](assets/label_distribution.png) ## Language Distribution ![Bar chart showing entry distribution across 24 European languages](assets/language_distribution.png) ## European Coverage ![Map of Europe highlighting 25 covered countries including UK, France, Germany, Nordics, Balkans, and Iberia](assets/eu_map.png) ## Full Dataset The complete dataset is available at [`ai4privacy/pii-masking-location-pli-200k`](https://huggingface.co/datasets/ai4privacy/pii-masking-location-pli-200k). ## Part of PII-Masking-2M | Dataset | Category | |---------|----------| | [pii-masking-health-phi](https://huggingface.co/datasets/ai4privacy/pii-masking-health-phi-preview) | Personal Health Information | | [pii-masking-financial-pfi](https://huggingface.co/datasets/ai4privacy/pii-masking-financial-pfi-preview) | Personal Financial Information | | [pii-masking-digital-pdi](https://huggingface.co/datasets/ai4privacy/pii-masking-digital-pdi-preview) | Personal Digital Information | | [pii-masking-work-pwi](https://huggingface.co/datasets/ai4privacy/pii-masking-work-pwi-preview) | Personal Work & HR Information | | [pii-masking-location-pli](https://huggingface.co/datasets/ai4privacy/pii-masking-location-pli-preview) | Personal Location & Travel Information | | [pii-masking-openpii](https://huggingface.co/datasets/ai4privacy/pii-masking-openpii-preview) | General Open PII | --- ## Contact - Partnerships: partnerships@ai4privacy.com - Website: [ai4privacy.com](https://ai4privacy.com) - Discord: [https://discord.gg/FmzWshaaQT](https://discord.gg/FmzWshaaQT) Ai4Privacy is a project affiliated with [Ai Suisse SA](https://www.aisuisse.com/). ## p5y Data Analytics This dataset is built on the [p5y](https://p5y.org) framework - think of it as i18n but for privacy. Just as i18n (internationalization) translates content into different locales, p5y translates sensitive data into privacy-safe formats through a standardized 3-step approach: 1. **Awareness** - Scan and markup private entities in unstructured text, producing a structured privacy mask with entity types, distribution, density, and risk assessment. 2. **Protection** - Control identified personal data through masking, pseudonymization, or k-anonymization, tailored to the specific use case and regulatory requirements. 3. **Quality Assurance** - Measure remaining privacy risk after anonymization, evaluating de-anonymization risks through expert annotation and automated assessment. Learn more at [p5y.org](https://p5y.org)

license: CC BY 4.0 language: - 英语 - 德语 - 法语 - 西班牙语 - 意大利语 - 荷兰语 - 葡萄牙语 - 波兰语 - 捷克语 - 罗马尼亚语 - 匈牙利语 - 保加利亚语 - 希腊语 - 克罗地亚语 - 斯洛伐克语 - 斯洛文尼亚语 - 塞尔维亚语 - 立陶宛语 - 拉脱维亚语 - 爱沙尼亚语 - 芬兰语 - 丹麦语 - 瑞典语 task_categories: - Token分类(token-classification) tags: - 个人可识别信息(Personally Identifiable Information,PII) - 隐私保护 - 命名实体识别(Named Entity Recognition,NER) - 合成数据 - 《通用数据保护条例》(General Data Protection Regulation,GDPR) - 欧洲相关 - 预览版 pretty_name: "个人可识别信息(PII)掩码:个人位置与旅行信息(PLI)——预览版" size_categories: 不足1000条 configs: - config_name: default data_files: - split: preview path: "data/*.jsonl" --- # 个人可识别信息(PII)掩码:个人位置与旅行信息(PLI)——预览版 **本预览版源自AI4Privacy发布的PII-Masking-2M欧洲版数据集,包含50条样本条目。** > 本预览版中已对源文本及PII值进行脱敏处理,如需获取完整数据集请联系我们。 ## 标签分布 ![条形图展示各实体类型的PII标签分布](assets/label_distribution.png) ## 语言分布 ![条形图展示24种欧洲语言的条目分布情况](assets/language_distribution.png) ## 欧洲覆盖范围 ![欧洲地图,高亮显示25个覆盖国家,包括英国、法国、德国、北欧诸国、巴尔干半岛及伊比利亚半岛](assets/eu_map.png) ## 完整数据集 完整数据集可在 [`ai4privacy/pii-masking-location-pli-200k`](https://huggingface.co/datasets/ai4privacy/pii-masking-location-pli-200k) 获取。 ## 隶属于PII-Masking-2M数据集系列 | 数据集名称 | 类别 | |---------|----------| | [pii-masking-health-phi](https://huggingface.co/datasets/ai4privacy/pii-masking-health-phi-preview) | 个人健康信息(Personal Health Information,PHI) | | [pii-masking-financial-pfi](https://huggingface.co/datasets/ai4privacy/pii-masking-financial-pfi-preview) | 个人金融信息(Personal Financial Information,PFI) | | [pii-masking-digital-pdi](https://huggingface.co/datasets/ai4privacy/pii-masking-digital-pdi-preview) | 个人数字信息(Personal Digital Information,PDI) | | [pii-masking-work-pwi](https://huggingface.co/datasets/ai4privacy/pii-masking-work-pwi-preview) | 个人工作与人力资源信息 | | [pii-masking-location-pli](https://huggingface.co/datasets/ai4privacy/pii-masking-location-pli-preview) | 个人位置与旅行信息(PLI) | | [pii-masking-openpii](https://huggingface.co/datasets/ai4privacy/pii-masking-openpii-preview) | 通用开放PII | --- ## 联系方式 - 合作洽谈:partnerships@ai4privacy.com - 官方网站:[ai4privacy.com](https://ai4privacy.com) - Discord社区:[https://discord.gg/FmzWshaaQT](https://discord.gg/FmzWshaaQT) AI4Privacy是隶属于[Ai Suisse SA](https://www.aisuisse.com/)的项目。 ## p5y数据分析框架 本数据集基于[p5y](https://p5y.org)框架构建——可将其视为面向隐私保护的国际化(i18n)工具。正如国际化(i18n,internationalization)将内容适配至不同语言区域,p5y框架通过标准化的三步流程,将敏感数据转换为符合隐私安全标准的格式: 1. **感知(Awareness)**:对非结构化文本中的私有实体进行扫描与标记,生成包含实体类型、分布、密度及风险评估的结构化隐私掩码。 2. **保护(Protection)**:针对特定用例及监管要求,通过掩码、假名化或k-匿名化(k-anonymization)等方式管控已识别的个人数据。 3. **质量保证(Quality Assurance)**:评估匿名化后剩余的隐私风险,通过专家标注与自动化评估手段检测去匿名化风险。 更多信息可访问[p5y.org](https://p5y.org)
提供机构:
ai4privacy
搜集汇总
数据集介绍
main_image_url
构建方式
在隐私保护技术日益重要的背景下,该数据集作为PII-Masking-2M欧洲版本的一部分,专注于个人位置与旅行信息。其构建遵循p5y框架,采用标准化三步流程:首先通过扫描与标记在非结构化文本中识别隐私实体,形成结构化隐私掩码;随后依据具体用例与法规要求,对识别的个人数据进行掩码、假名化或k-匿名化处理;最后通过专家标注与自动化评估,衡量匿名化后的剩余隐私风险,确保数据质量与合规性。
特点
该预览数据集包含50条样本条目,覆盖24种欧洲语言,涉及英国、法国、德国、北欧、巴尔干及伊比利亚等25个国家和地区,体现了广泛的欧洲语言与地理多样性。数据以JSONL格式存储,专为令牌分类任务设计,标签分布涵盖多种实体类型,适用于隐私保护、命名实体识别及合成数据生成等研究领域。源文本与个人可识别信息值在预览中经过脱敏处理,完整数据集可通过指定渠道获取。
使用方法
该数据集适用于隐私保护与自然语言处理研究,特别是在个人可识别信息掩码技术的开发与评估中。研究人员可将其用于训练或测试命名实体识别模型,以识别和分类文本中的位置与旅行相关隐私实体。使用前需注意预览版本中源文本与PII值已被脱敏,完整数据需联系提供方获取。数据加载可通过HuggingFace数据集库进行,支持直接访问预览配置,便于快速集成到机器学习流程中,助力欧洲GDPR等隐私法规下的技术探索。
背景与挑战
背景概述
在数据隐私保护与自然语言处理交叉领域,个人可识别信息(PII)的自动识别与掩蔽技术日益成为研究焦点。由AI4Privacy机构发布的PII-Masking-2M数据集系列,作为一项涵盖多语言欧洲文本的综合性资源,旨在应对通用数据保护条例(GDPR)等法规对隐私合规的严格要求。该数据集聚焦于个人位置与旅行信息(PLI)这一特定类别,通过结构化标注支持命名实体识别任务,为开发鲁棒的隐私保护模型提供了关键训练基础。其构建依托于p5y隐私框架,采用系统化的感知、保护与质量保证流程,体现了隐私工程领域的前沿方法论。
当前挑战
该数据集致力于解决多语言环境下个人位置与旅行信息的精确识别与掩蔽挑战,其核心在于处理实体边界的模糊性、跨语言表达差异以及低资源语言的标注稀疏性问题。在构建过程中,面临的主要挑战包括:如何生成高质量、符合现实分布的合成数据以平衡隐私与实用性;如何在涵盖24种欧洲语言的广泛语料中保持标注一致性与文化语境适应性;以及如何设计有效的评估机制来量化匿名化后的剩余隐私风险,确保技术方案满足动态演进的法规要求。
常用场景
经典使用场景
在隐私保护与自然语言处理交叉领域,该数据集为个人位置与旅行信息(PLI)的识别与掩码提供了关键资源。其经典使用场景集中于训练和评估命名实体识别模型,以精准检测文本中诸如地址、地理位置、旅行行程等敏感实体。研究者利用其多语言标注数据,能够系统性地开发算法,实现在欧洲多语言环境下自动识别并保护个人位置隐私,从而满足通用数据保护条例等法规对数据匿名化的严格要求。
解决学术问题
该数据集有效应对了隐私计算中的核心挑战,即如何在非结构化文本中可靠地识别并处理个人可识别信息。它为解决跨语言隐私实体识别的一致性、标注数据的稀缺性以及合成数据在隐私保护任务中的有效性验证等学术问题提供了实证基础。通过提供标准化的标注框架,该数据集推动了隐私感知的自然语言处理模型的发展,为衡量匿名化技术的残余风险建立了可复现的评估基准。
衍生相关工作
围绕该数据集,已衍生出一系列专注于隐私保护的经典研究工作。其作为PII-Masking-2M大型项目的一部分,与健康、金融、数字等领域的PII数据集共同构成了一个全面的隐私研究生态系统。相关研究多集中于开发鲁棒的多语言PII检测模型、评估不同匿名化策略(如掩码、假名化)的效用与隐私权衡,以及基于p5y框架构建端到端的隐私数据管道,这些工作显著推进了隐私工程在人工智能领域的标准化进程。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作