synthetic-privacy

Hugging Face2025-11-04 更新2025-11-05 收录

下载链接：

https://huggingface.co/datasets/kbillesk/synthetic-privacy

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个用于评估处理非结构化数据速度和效率的测试数据集，包含文本、表格、图像等多种类型的数据，基于演示数据和合成数据构建，旨在提供一个现实样本用于测试。数据集从Faker库、Huggingface、公共域新闻网站等来源采集，不包含任何真实个人的敏感信息。

创建时间：

2025-10-21

原始信息汇总

数据集概述

基本信息

许可证: CC
用途: 评估非结构化数据处理速度和效率的测试数据集
数据来源:
- 文本/表格数据：使用Faker Python库生成
- 图像和PDF文件：来自Huggingface和公共领域新闻网站
- 身份证件：来自公共样本，不包含真实自然人信息

数据规模

原始数据量: 71 GB
总大小: 73 GB
文件数量: 90,057个
目录数量: 3,555个
最大文件夹深度: 7层
平均文件大小: 869.48 KB

文件类型分布

文件类型	文件数量	总大小	平均大小	大小范围
.pdf	1,513,973	1.14 TB	805.44 KB	1.75 KB - 25.05 MB
.txt	411,148	191.90 GB	489.43 KB	72.00 B - 4.82 MB
.jpg	393,397	35.56 GB	94.79 KB	43.00 B - 2.97 MB
.xlsx	246,000	23.84 GB	101.62 KB	5.06 KB - 222.68 KB
.csv	185,730	26.06 GB	147.12 KB	25.36 KB - 2.71 MB
.docx	184,542	48.59 GB	276.06 KB	17.26 KB - 2.52 MB
.dat	141,573	408.11 GB	2.95 MB	19.00 B - 9.54 MB
.bin	141,040	411.01 GB	2.98 MB	19.00 B - 9.53 MB
.raw	140,466	379.26 GB	2.76 MB	19.00 B - 9.53 MB
.png	84,337	137.42 GB	1.67 MB	3.65 KB - 21.85 MB

扩展功能

提供shell/python脚本用于复制数据集生成更大数据量
默认设置生成29个副本
可自定义修改副本数量

搜集汇总

数据集介绍

构建方式

在数据隐私保护研究领域，synthetic-privacy数据集通过多源融合策略构建而成。文本与表格数据主要借助Python的Faker库生成合成数据，确保信息脱敏的同时维持结构真实性；图像及PDF文档则从公开新闻网站与HuggingFace平台采集，并对含个人身份的证件类文件进行严格筛选，仅保留经验证的公开样本。构建过程参考了企业文件系统的统计特征，使数据分布贴近实际业务场景。

特点

该数据集以71GB原始容量覆盖90,057个文件，涵盖PDF、文本、图像等30余种格式，呈现非结构化数据的典型复杂性。文件规模跨度从几十字节到数十兆字节，其中PDF与二进制文件占比显著，深度文件夹层级达7层，模拟了真实存储环境的拓扑结构。数据样本基于企业文件共享模式的统计分析，其类型分布与商业场景高度吻合，为评估数据处理效率提供了高保真基准。

使用方法

研究者可通过内置的Shell/Python脚本灵活扩展数据集规模，默认配置可生成29份副本并保持文件名唯一性。该数据集适用于测试非结构化数据处理管道的性能，包括文件解析速度、格式兼容性及存储系统吞吐量。用户可根据实际需求调整复制参数，构建不同体量的测试环境，为隐私保护算法与系统优化提供量化评估基础。

背景与挑战

背景概述

在数据隐私保护与处理效率研究日益重要的背景下，synthetic-privacy数据集应运而生，专为评估非结构化数据处理的速度与效能而设计。该数据集由专业团队基于对现有客户文件共享系统的统计分析构建，融合了Faker库生成的合成数据与公开领域采集的多模态内容，涵盖文本、图像及PDF等多种格式，总计73GB容量与九万余文件，旨在模拟真实企业环境中的数据分布特征，为隐私保护技术提供标准化测试基准。

当前挑战

该数据集致力于应对非结构化数据处理中的双重挑战：在领域问题层面，需解决多模态数据（如PDF、图像与文本混合内容）的隐私信息识别与脱敏难题，同时维持处理流程的高效性；在构建过程中，团队面临合成数据真实性与多样性的平衡问题，需通过统计建模还原企业数据分布，并严格验证所有个人身份信息均来源于公开样本以避免隐私泄露风险。

常用场景

经典使用场景

在数据隐私与安全研究领域，synthetic-privacy数据集被广泛用于评估非结构化数据处理工具的性能。该数据集通过合成方法生成多样化的文件类型，包括文本、图像和PDF文档，模拟真实企业环境中的数据分布。研究人员利用其大规模、多格式的特点，测试数据分类算法的准确性和处理效率，为隐私保护技术提供基准验证平台。

衍生相关工作

基于该数据集衍生了多项重要研究，包括开发新型数据匿名化框架和隐私保护机器学习算法。有学者利用其构建了动态数据脱敏评估体系，另有研究团队在此基础上提出了多模态数据融合的隐私计算模型。这些工作显著推进了隐私增强技术的发展，为构建可信数据生态系统奠定了理论基础。

数据集最近研究