P4Ms-sqa

Hugging Face2025-12-08 更新2025-12-09 收录

下载链接：

https://huggingface.co/datasets/SprintML/P4Ms-sqa

下载链接

链接失效反馈

官方服务：

资源简介：

P4Ms基准数据集是用于分析大型多模态模型（LMMs）在多阶段和多模态训练管道中隐私泄露问题的第一个基准。这个特定的数据集代表了训练管道的一个阶段，即语音问答（SQA）。它包含音频记录与问题和答案的配对，模型需要从音频中提取敏感信息。数据集由1,500个独特个体的合成数据组成，涵盖文本、视觉和语音模态。数据集分为三个子集：members（包含用于目标模型训练的个人身份信息PII的样本）、nonmembers（包含在训练期间保留的PII样本）和wo_piis（Without PIIs，不包含任何PII但结构和上下文与敏感样本相同的样本）。数据集的任务类型为SQA，敏感信息包括共享的PII（如姓名、电子邮件、电话号码、信用卡号）和阶段特定的PII（如出生日期和出生地）。音频是通过Chatterbox TTS合成的，使用了Common Voice数据集中的声音。

The P4Ms benchmark dataset is the first benchmark designed to analyze privacy leakage issues of large multimodal models (LMMs) in multi-stage and multimodal training pipelines. This specific dataset represents one stage of the training pipeline, namely Speech Question Answering (SQA). It consists of pairs of audio recordings paired with questions and answers, where models are required to extract sensitive information from the audio. The dataset is composed of synthetic data from 1,500 unique individuals, covering text, visual, and speech modalities. The dataset is divided into three subsets: members (samples containing personally identifiable information (PII) used for target model training), nonmembers (samples containing PII that was withheld during training), and wo_piis ("Without PIIs": samples that do not contain any PII but have the same structure and context as sensitive samples). The task type of the dataset is SQA, and sensitive information includes shared PII such as names, email addresses, phone numbers, and credit card numbers, as well as stage-specific PII such as date of birth and place of birth. The audio was synthesized via Chatterbox TTS using voices from the Common Voice dataset.

创建时间：

2025-12-08

原始信息汇总

P4Ms-sqa 数据集概述

数据集来源

数据集名称: P4Ms-sqa
所属基准: P4Ms Benchmark (Privacy Measurements for Multistage and Multimodal Models)
关联论文: "P4Ms: Privacy Measurements for Multistage and Multimodal Models"

数据集描述

核心目的: 作为P4Ms基准的一部分，旨在分析大型多模态模型（LMMs）在现实、多阶段、多模态训练管道中的隐私泄露问题。
本数据集定位: 代表训练管道中的一个特定阶段——语音问答（SQA）。
内容: 包含音频录音与问答对的配对数据，模型需要从音频中提取敏感信息。
数据生成:
- 使用GPT-4.1生成文本转录。
- 使用Chatterbox TTS（https://www.resemble.ai/chatterbox/）进行语音合成。
- 合成语音使用来自Common Voice数据集的音色。

数据集结构

数据特征

user_id: (字符串)
path: (音频)
conversation: (列表)
- instruction: (字符串)
- output: (字符串)

数据子集划分

数据集划分为三个独立的子集：

members:
- 描述: 包含在目标模型训练期间使用的、含有个人可识别信息（PII）的样本。
- 样本数量: 4438
- 数据大小: 6696229387.69 字节
non_members:
- 描述: 包含在训练期间被保留的、含有PII的样本。
- 样本数量: 5963
- 数据大小: 5002234276.494 字节
without_piis:
- 描述: 遵循与敏感样本相同的结构和上下文，但不包含任何PII的样本。用于训练模型学习上下文而不暴露敏感数据。
- 样本数量: 1896
- 数据大小: 2544649859.728 字节

整体统计

下载大小: 13908385103 字节
数据集总大小: 14243113523.912 字节

数据集摘要

阶段: 多模态适应 - 语音
类型: 语音 + 文本（问答对）
任务: 语音问答（SQA）
简短描述: 语音录音，内容为个人自我介绍并提及个人详细信息。
敏感信息:
- 共享PII: 姓名、电子邮件、电话号码、信用卡号。
- 阶段特定PII: 出生日期和出生地。

技术信息

任务类别: 问答
语言: 英语
标签: 音频、语音

搜集汇总

数据集介绍

构建方式

在语音问答领域，P4Ms-sqa数据集的构建体现了对多模态模型隐私泄露问题的系统性考量。该数据集通过GPT-4.1生成包含个人身份信息的文本转录，并利用Chatterbox TTS语音合成技术，结合Common Voice语料库中的声音，将文本转化为语音样本。这些样本被精心组织为包含敏感信息的语音问答对，旨在模拟真实场景中模型可能接触到的隐私数据。数据集的构建过程严格遵循多阶段训练管道的设计理念，确保样本在语音和文本模态上的对齐与一致性。

特点

P4Ms-sqa数据集的核心特征在于其针对隐私测量的结构化设计。数据集划分为三个子集：members子集包含用于目标模型训练的个人身份信息样本；nonmembers子集则保留未参与训练但同样包含敏感信息的样本，用于评估模型泛化与隐私泄露风险；without_piis子集则提供不含个人身份信息的对照样本，支持模型在无隐私暴露环境下学习上下文。这种划分方式使得数据集能够全面覆盖多模态模型在训练、推理及隐私评估中的不同场景，为隐私泄露分析提供了多维度的数据基础。

使用方法

该数据集主要用于评估大型多模态模型在语音问答任务中的隐私泄露风险。研究人员可首先利用members子集训练模型，使其学习从语音中提取敏感信息；随后通过nonmembers子集测试模型对未见隐私数据的记忆或推断能力，从而量化隐私泄露程度。without_piis子集则可用于对比实验，帮助区分模型对上下文的学习与对个人身份信息的特异性记忆。在实际应用中，数据集支持端到端的隐私测量流程，包括模型训练、攻击模拟及隐私度量计算，为多模态模型的隐私安全研究提供标准化基准。

背景与挑战

背景概述

随着大规模多模态模型的快速发展，模型训练过程中涉及的多阶段、多模态数据处理引发了日益严峻的隐私泄露风险。P4Ms-sqa数据集作为P4Ms基准测试的重要组成部分，由相关研究团队于近期提出，旨在系统评估多模态训练流程中的隐私泄露问题。该数据集聚焦于语音问答任务，通过合成包含个人身份信息的音频与文本配对数据，为核心研究问题——即多阶段多模态模型在适应学习过程中对敏感信息的记忆与泄露程度——提供了首个标准化评估框架。其构建基于GPT-4.1生成的文本与Common Voice语音合成技术，涵盖了1500个虚拟个体的多模态信息，对推动隐私保护机器学习领域的发展具有奠基性影响。

当前挑战

该数据集致力于解决多模态模型隐私泄露评估这一新兴领域的核心挑战，即如何量化模型在多阶段训练中对敏感信息的记忆与推断能力。具体而言，构建过程中面临多重困难：一是需在合成数据中嵌入真实且多样的个人身份信息，同时确保数据分布的合理性与评估的公平性；二是设计并区分成员、非成员及无敏感信息样本，以精确模拟训练数据暴露情境；三是跨模态对齐的复杂性，要求语音内容与文本问答在语义上紧密匹配，以准确反映模型从语音中提取文本敏感信息的能力。这些挑战共同指向了多模态隐私评估中数据真实性、结构严谨性与评估效度之间的平衡难题。

常用场景

经典使用场景

在语音问答领域，P4Ms-sqa数据集为大型多模态模型的隐私泄露分析提供了关键支持。该数据集通过合成音频与文本问答对，模拟了真实场景中用户语音包含个人身份信息的交互过程。研究人员利用此数据集评估模型在语音理解任务中提取敏感信息的能力，从而揭示多阶段训练流程中潜在的隐私风险。其经典应用聚焦于隐私测量基准测试，为模型安全性的量化分析奠定了数据基础。

实际应用

在实际应用中，P4Ms-sqa数据集为开发安全的多模态人工智能系统提供了重要工具。企业或研究机构可借助该数据集测试语音助手、客服系统等模型在处理用户语音输入时的隐私合规性。通过区分成员与非成员样本，能够评估模型是否过度记忆训练数据中的个人身份信息，从而指导隐私增强技术的部署，降低实际服务中的数据泄露风险。

衍生相关工作

围绕P4Ms-sqa数据集，衍生出一系列关注多模态隐私的研究工作。例如，基于该基准的隐私攻击与防御方法被提出，以探究模型在不同训练阶段的脆弱性。同时，它启发了对合成数据隐私影响的深入探讨，促进了如差分隐私、联邦学习等技术在语音-文本模型中的适配研究，为构建可信赖的多模态学习框架提供了实证基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集