pii-ui-screenshots

Hugging Face2026-01-21 更新2026-01-22 收录

下载链接：

https://huggingface.co/datasets/nathanjzhao/pii-ui-screenshots

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含合成的UI截图，带有用于PII（个人身份信息）检测的真实边界框注释。数据集总样本数为44,865个，其中训练样本40,384个（非亚马逊公司），测试样本4,481个（仅亚马逊公司，用于跨公司评估）。数据集包含10,200个独特的源页面，变体类型包括完整、部分和空。数据集使用跨公司分割进行稳健评估，训练集包含除亚马逊外的所有公司样本，测试集仅包含亚马逊样本。数据集还详细描述了公司分布、页面类型分布、特征和注释格式。数据集适用于训练和评估PII检测模型、UI元素分类、表单字段检测和隐私感知文档处理。数据是通过渲染带有虚假PII数据的React组件合成的，PII值使用Faker库生成，不代表真实个人。数据集采用MIT许可证。

创建时间：

2026-01-21

原始信息汇总

PII UI Screenshots 数据集概述

数据集基本信息

数据集名称：PII UI Screenshots
许可证：MIT License
任务类别：目标检测、图像分类
标签：PII检测、UI截图、边界框、合成数据、隐私
数据规模：10K<n<100K
总样本数：44,865
训练集样本数：40,384
测试集样本数：4,481
唯一源页面数：10,200
下载大小：6,975,642,724 字节
数据集大小：6,322,917,284 字节

数据集描述

该数据集包含带有真实边界框标注的合成UI截图，用于PII（个人可识别信息）检测。

训练/测试划分

数据集采用跨公司划分以进行稳健评估：

训练集：40,384个样本（除Amazon外的所有公司）
测试集：4,481个样本（仅Amazon）此划分用于测试对未见过的公司风格/布局的泛化能力。

变体分布

full：10,200
partial：28,653
empty：6,012

公司分布

amazon：4,481（测试集）
apple：4,999
apple-inc：650
bh-photo：5,524
crate-barrel：4,387
home-depot：5,636
lowes：5,799
macys：5,469
slack：1,521
ulta-beauty：1,925
walmart：4,474

页面类型分布

customer-info-address：8,715
billing-address：8,029
payment：5,334
account-selection：3,900
address-validator：3,175
delivery-shipping：2,710
review-order：2,275
cart：1,950
receipt：1,549
gifting：1,480
store-pickup：1,199
newsletter-management：950
account-dashboard：800
stored-credit-cards：775
cross-sells：725
order-returns：549
order-tracking：375
orders-overview：275
added-to-cart：100

数据特征

特征	类型	描述
image	图像	UI页面的截图（干净，无边界框可视化）
source_id	字符串	链接来自同一源页面的变体的基础ID
variant	字符串	变体类型："full"、"partial_00"、"partial_01"、...、"empty"
page_type	字符串	页面类型（结账、账户、礼品、收据等）
company	字符串	UI所仿效的公司
image_width	整数	图像宽度（像素）
image_height	整数	图像高度（像素）
num_pii_elements	整数	可见PII元素数量
num_product_elements	整数	可见产品元素数量
num_order_elements	整数	可见订单元素数量
num_search_elements	整数	可见搜索元素数量
num_misc_elements	整数	可见杂项元素数量
fillable_count	整数	可填写的表单字段数量
pii_elements_json	字符串	PII元素标注的JSON数组
product_elements_json	字符串	产品元素标注的JSON数组
order_elements_json	字符串	订单元素标注的JSON数组
search_elements_json	字符串	搜索元素标注的JSON数组
misc_elements_json	字符串	杂项元素标注的JSON数组

标注格式

pii_elements_json、product_elements_json、order_elements_json、search_elements_json和misc_elements_json中的每个元素包含： json { "key": "PII_FULLNAME", "value": "John Doe", "bbox_x": 100, "bbox_y": 200, "bbox_width": 150, "bbox_height": 30, "visible": true, "clipped": false, "element_type": "input" }

预期用途

该数据集设计用于训练和评估：

PII检测模型（目标检测）
UI元素分类
表单字段检测
隐私感知文档处理

数据生成

截图是通过使用虚假PII数据渲染React组件合成生成的。PII值使用Faker库生成，不代表真实个体。

去重

通过MD5哈希值移除相同的图像。

搜集汇总

数据集介绍

构建方式

在隐私保护与用户界面分析领域，PII UI Screenshots数据集通过合成生成技术构建，以模拟真实场景中的个人可识别信息检测需求。该数据集基于10,200个独特的源页面，利用React组件渲染结合Faker库生成虚拟PII数据，自动生成UI截图及对应的边界框标注。构建过程中采用了去重策略，通过MD5哈希移除重复图像，并依据公司来源进行划分，训练集涵盖除亚马逊外的多家企业，测试集则专注于亚马逊页面，以此强化模型在跨公司风格与布局上的泛化能力。

特点

该数据集的特点体现在其精细的结构化标注与多样化的场景覆盖。每张截图均附带丰富的元数据，包括页面类型、公司来源、图像尺寸及各类元素数量统计，并通过JSON格式详细标注PII元素、非PII元素与搜索元素的边界框位置、可见性及类型。数据分布上，包含完整、部分与空变体等多种形式，覆盖从客户信息地址到订单跟踪等19种页面类型，确保了数据在隐私检测任务中的广泛代表性。跨公司划分的设计进一步突出了其在未知界面风格下的评估鲁棒性。

使用方法

使用该数据集时，可通过Hugging Face的datasets库直接加载，便捷访问训练集与测试集。每个样本以图像与结构化字段形式呈现，用户可解析JSON标注字段以获取PII元素的键值、边界框坐标及可见性状态，进而用于目标检测或图像分类模型的训练与评估。该数据集适用于隐私感知文档处理、UI元素分类及表单字段检测等多类任务，为研究人员提供了标准化且可复现的实验基础。

背景与挑战

背景概述

在数字时代，个人可识别信息（PII）的保护已成为隐私安全领域的核心议题。PII UI Screenshots数据集由Nathan J. Zhao等人于近期构建，旨在通过合成用户界面截图，为PII检测任务提供高质量的标注数据。该数据集聚焦于电子商务和在线服务场景，涵盖多种页面类型与公司风格，其核心研究问题在于提升模型对跨平台、跨布局的PII元素的泛化识别能力。通过引入交叉公司划分策略，该数据集推动了隐私感知计算与界面理解研究的交叉融合，为自动化隐私合规检测提供了重要基准。

当前挑战

该数据集致力于解决用户界面中个人可识别信息的自动化检测难题，其挑战在于PII元素在视觉呈现上的高度多样性，包括不同字体、颜色、布局及遮挡情况，要求模型具备强大的跨域泛化能力。在构建过程中，合成数据的真实性模拟面临挑战，需平衡视觉逼真度与标注一致性，同时确保生成的PII数据不涉及真实个人信息。此外，数据集的交叉公司划分设计虽增强了评估鲁棒性，但也对模型从已知公司风格迁移到未知公司界面的能力提出了更高要求。

常用场景

经典使用场景

在隐私保护与用户界面分析领域，PII UI Screenshots数据集为研究者提供了合成UI截图与精确边界框标注，其经典使用场景集中于训练和评估基于计算机视觉的个人可识别信息检测模型。通过涵盖多种公司风格和页面类型，该数据集支持模型学习跨域泛化能力，例如在电商、支付等界面中定位姓名、地址等敏感信息元素，为自动化隐私审查工具的开发奠定基础。

实际应用

在实际应用中，PII UI Screenshots数据集被广泛用于开发智能隐私审查工具，帮助企业和组织自动化检测用户界面中的敏感信息泄露风险。例如，在金融科技和电子商务平台中，该数据集可训练模型扫描支付页面、账户仪表板等界面，实时识别并遮蔽PII元素，从而增强数据隐私合规性，降低人工审核成本，并支持GDPR等法规的落地实施。

衍生相关工作

围绕该数据集，已衍生出多项经典研究工作，主要集中在隐私增强的计算机视觉模型开发上。例如，基于跨公司分割的评估框架被用于测试PII检测模型的泛化性能；同时，结合合成数据生成技术，研究者进一步扩展了数据集的多样性与真实性。这些工作推动了UI元素分类、表单字段检测等任务的进展，并为隐私保护领域的多模态学习提供了新的研究方向。

以上内容由遇见数据集搜集并总结生成