Privacy-preserving datasets

Name: Privacy-preserving datasets
Creator: 巴姆贝格大学
Published: 2024-08-01 23:26:24
License: 暂无描述

arXiv2024-08-01 更新2024-08-05 收录

下载链接：

https://github.com/francescodisalvo05/cvae-anonymization

下载链接

链接失效反馈

官方服务：

资源简介：

本研究利用条件变分自编码器（CVAEs）在预训练的基础模型提取的特征向量上进行训练，以捕捉数据分布并生成多样化的合成特征向量，同时保护隐私。该方法在医疗和自然图像领域显示出比传统方法更高的数据多样性和模型鲁棒性。数据集创建过程涉及使用大型预训练模型提取特征嵌入，然后通过CVAE进行训练以捕捉训练分布。该数据集主要应用于深度学习领域，特别是在数据稀缺和隐私敏感的环境中，旨在提高数据隐私保护和模型性能。

This study trains Conditional Variational Autoencoders (CVAEs) on feature vectors extracted by pretrained foundational models, aiming to capture the underlying data distribution and generate diverse synthetic feature vectors while preserving data privacy. This approach demonstrates superior data diversity and model robustness compared to traditional methods in medical imaging and natural image domains. The dataset creation workflow involves extracting feature embeddings using large-scale pretrained models, followed by training with CVAE to model the training data distribution. This dataset is primarily applied in the deep learning field, particularly in data-scarce and privacy-sensitive scenarios, with the goal of enhancing data privacy protection and model performance.

提供机构：

巴姆贝格大学

创建时间：

2024-08-01

原始信息汇总

数据集概述

数据集简介

本工作引入了一种使用条件变分自编码器（CVAE）的新方法，该方法在从大型预训练视觉基础模型中提取的特征向量上进行训练。基础模型能够有效检测和表示跨不同领域的复杂模式，使CVAE能够忠实地捕捉给定数据分布的嵌入空间，生成多样化、尊重隐私且潜在无限的合成特征向量集。

数据处理流程

特征提取：利用大型预训练模型提取并存储特征嵌入和相应的标签。这些嵌入既捕捉了局部信息也捕捉了上下文信息，同时自然地降低了维度。
CVAE训练：使用这些嵌入在条件变分自编码器（CVAE）上进行训练，以捕捉训练分布，条件是各自的类别标签。
合成特征生成：在CVAE的冻结解码器上动态生成新的合成特征向量，条件是类别标签。这不仅确保了数据匿名性，还增加了数据多样性和模型鲁棒性。

数据集创建与处理

创建数据库

bash python create_db.py --dataset [dataset] --backbone [backbone]

数据库存储在assets/database/[train|val|test].npz下。

数据匿名化

bash python anonymize.py --dataset [dataset]
--anonymizer [kSAME|cvae] --k [k, set if anonymizer == kSAME] --seed [random seed, set if anonymizer == cvae]

匿名化数据库存储在assets/database/train_[anonymizer_id].npz下。

训练与评估

bash python probing.py --dataset [dataset] --anonymizer [identity|kSAME|cvae] --k [k, set if anonymizer == kSAME] --seed [random seed] --output_root [where to store output logs]

对于噪声测试嵌入的训练和评估，使用以下命令： bash

for kSAME

python probing_noise.py --dataset [dataset]
--anonymizer [kSAME]
--k [k] --seed [random seed] --sigma [standard deviation of the injected noise] --output_root [where to store output logs]

bash

for CVAE - online data generation

python probing_noise_cvae.py --dataset [dataset]
--anonymizer [cvae-online]
--variance [sampling variance of CVAE] --seed [random seed] --sigma [standard deviation of the injected noise] --output_root [where to store output logs]

搜集汇总

数据集介绍

构建方式

本数据集采用了条件变分自编码器（CVAEs）来捕获特征分布，以实现隐私保护。首先，利用大型预训练的视觉基础模型提取并存储特征嵌入和相应的标签。然后，这些嵌入用于训练CVAE，以捕获给定数据分布的嵌入空间。最后，通过CVAE的冻结解码器生成（采样）一组多样化的、尊重隐私的、可能无限的特征向量。

特点

本数据集的特点包括：1）采用CVAEs模型，能够有效地捕获数据分布的嵌入空间；2）生成多样化的特征向量，增强模型鲁棒性；3）保护样本隐私，避免传统匿名化方法的数据多样性损失。

使用方法

使用本数据集的方法包括：1）离线匿名化，生成持久性匿名复制品的数据集；2）在线匿名化，在训练特定任务头部的同时动态生成新数据。这两种方法都能够有效地保护数据隐私，同时提高数据多样性和模型鲁棒性。

背景与挑战

背景概述

隐私保护数据集的研究背景在于，随着深度学习在各个领域的广泛应用，大规模且标注良好的数据集成为推动深度学习技术发展的关键。然而，在某些领域，如医疗影像分析，获取此类数据集往往成本高昂或难以实现。数据共享作为一种解决方案，虽然能够有效扩大数据集的规模和多样性，但同时也引发了数据隐私保护的重大问题。传统的匿名化方法，如基于k-匿名性的方法，往往无法有效保留数据的多样性，从而影响模型的鲁棒性。本研究提出了一种新的方法，使用条件变分自编码器（CVAEs）对从大型预训练视觉基础模型中提取的特征向量进行训练，从而能够真实地捕捉给定数据分布的嵌入空间，生成一系列多样化的、尊重隐私的、可能是无限的特征向量。该方法在医疗和自然图像领域均优于传统方法，展现出更高的数据多样性和对扰动的鲁棒性，同时保留了样本隐私。

当前挑战

隐私保护数据集面临的挑战主要包括：1) 在保证数据隐私的前提下，如何有效地共享和使用数据；2) 如何构建能够真实捕捉数据分布的生成模型，以避免信息损失；3) 如何提高生成模型的鲁棒性，使其能够在不同领域和任务中保持良好的性能；4) 如何降低生成模型的计算复杂度，使其在实际应用中更加高效。

常用场景

经典使用场景

在医学影像分析、自然图像分类等领域，隐私保护数据集的构建对于推进深度学习应用至关重要。然而，获取大规模且标注详尽的数据集往往成本高昂，或对于单一实体而言难以实现。隐私保护数据集通过条件变分自编码器（CVAEs）捕获特征分布，从而生成既保护隐私又具有多样性的合成特征向量，为解决这一挑战提供了有效途径。

实际应用

隐私保护数据集在实际应用中，如医疗影像分析，可以生成保护患者隐私的合成数据集，为研究提供更多样化的数据资源。同时，该数据集的生成过程无需存储或交换大量敏感数据，只需共享CVAEs的解码器即可，有效降低了数据交换的需求和风险。

衍生相关工作

隐私保护数据集的提出，推动了CVAEs在特征空间生成合成数据的研究。相关研究进一步探索了CVAEs在不同领域的应用，如医疗、气候、地理空间数据等，并提出了特定领域的视觉基础模型，以提高模型在特定任务上的表现。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集