nips26/VoxSafeBench

Name: nips26/VoxSafeBench
Creator: nips26
Published: 2026-05-01 17:05:56
License: 暂无描述

Hugging Face2026-05-01 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/nips26/VoxSafeBench

下载链接

链接失效反馈

官方服务：

资源简介：

VoxSafeBench数据集是一个专注于安全、公平和隐私的音频数据集。数据集分为多个子集（Safety-tier1、Safety-tier2、Fairness-tier1、Fairness-tier2、Privacy-tier1、Privacy-tier2），每个子集包含不同的分割和样本数量。数据集包含系统提示、音频文件名、转录文本和各种元数据等特征。数据集支持多语言（英语和中文），采用Apache-2.0许可证，样本数量在10K到100K之间。

The VoxSafeBench dataset is an audio dataset focused on safety, fairness, and privacy. The dataset is divided into several subsets (Safety-tier1, Safety-tier2, Fairness-tier1, Fairness-tier2, Privacy-tier1, Privacy-tier2), each containing different splits and numbers of samples. The dataset includes features such as system prompts, audio file names, transcripts, and various metadata. The dataset is multilingual (English and Chinese), licensed under Apache-2.0, and the size category is between 10K and 100K samples.

提供机构：

nips26

搜集汇总

数据集介绍

构建方式

VoxSafeBench是一个专为评估语音交互系统安全性、公平性与隐私保护能力而设计的多维度音频基准数据集。其构建策略采用分层架构，将测试用例划分为三大核心维度：安全（Safety）、公平（Fairness）与隐私（Privacy），每个维度进一步细分为两个层级（Tier1与Tier2），以递进式难度覆盖从基础到复杂的风险场景。数据集的构建依托于自动化模板与人工精修相结合的方式，通过注入多类型对抗扰动（如单轮/多轮越狱攻击、儿童语音、情绪化表达、背景噪声叠加等）生成丰富的音频样本。所有数据以JSONL格式存储元数据信息，并附带原始音频文件，每条记录包含系统提示词、音频路径、文本转录、任务类型及风险维度标签等关键字段，确保了数据的高度结构化与可复现性。

使用方法

VoxSafeBench的使用方式灵活且标准化，用户可通过HuggingFace Datasets库直接加载指定配置与分割（如Safety-tier1中的No_jailbreak子集）。加载后的数据以字典形式呈现，包含音频文件路径（支持直接解码为波形数组）、文本转录、风险类别标签等字段。研究者可依据自身需求选择评估维度——例如，使用Singleturn_jailbreak子集测试模型对单轮语音攻击的防御能力，或借助Multiturn_jailbreak子集模拟多轮对话中的渐进式风险。对于公平性与隐私分析，Bias_analysis与Interactional_privacy等子集提供了针对性工具。数据集兼容标准语音识别、说话人验证及大语言模型评估管线，用户只需按字段名解析音频与文本内容，即可开展系统化的安全红队测试与鲁棒性分析。

背景与挑战

背景概述

VoxSafeBench是由安全与人工智能交叉领域的研究者于近期构建的一个综合性音频安全评估基准，旨在系统性地评测大型语音模型在安全、公平与隐私维度的表现。随着多模态大语言模型的蓬勃发展，语音交互系统在日常生活、医疗、教育等领域的应用日益广泛，然而其潜在的恶意利用风险——如通过音频注入的越狱攻击、针对儿童或情绪脆弱用户的歧视性回应、以及无意中泄露敏感信息等——尚未得到充分研究。VoxSafeBench的创建填补了这一关键空白，通过设计涵盖越狱攻击、情感操纵、儿童语音保护、公平性偏差分析以及隐私泄漏等细分场景的多层次数据集，为学术界与工业界提供了一个标准化、多维度的评估工具。该数据集已公开发布于HuggingFace平台，采用Apache-2.0许可协议，包含中英双语样本，数据规模介于一万至十万之间，有望推动语音安全研究的系统化发展。

当前挑战

VoxSafeBench所应对的核心挑战是大型语音模型在开放式交互环境中缺乏鲁棒且全面的安全保障机制。具体而言，该领域面临三大难题：其一，攻击者可利用语音特有的副语言特征（如情感语调、变声、背景噪音）进行隐蔽越狱，而现有文本安全过滤器无法有效检测此类变异输入；其二，模型在多元用户群体中表现出不公平性，例如对儿童语音或非母语口音的回应质量显著下降，甚至产生歧视性内容；其三，语音交互中隐私泄漏问题更为复杂，既包括直接泄露用户身份信息，也涵盖通过对话上下文推断敏感属性。在构建过程中，研究者面临的挑战在于如何设计能够真实反映现实攻击场景的数据样本，同时确保标注的准确性与伦理合规性——例如生成儿童语音样本需避免法律风险，并且对越狱提示和隐私查询的分类需要专业知识以保证基准可靠性。

常用场景

经典使用场景

VoxSafeBench作为首个多维度音频大模型安全评测基准，其经典使用场景集中于系统性评估语音交互系统的鲁棒性与伦理合规性。研究者可借此基准考察模型在面对单轮或多轮越狱攻击时的防御能力，分析语音中的副语言特征（如语气、背景音）如何影响模型的安全决策。通过其分层设计的测试集，可深入探究模型在儿童声音、情绪化表达或嘈杂环境等复杂声学条件下的表现偏差，为构建可信赖的语音AI提供严谨的评估框架。

解决学术问题

该数据集精准回应了语音大模型在安全性、公平性与隐私保护三大学术痛点。在安全层面，它解决了现有文本基准无法覆盖的语音越狱攻击向量问题；在公平性维度，其偏倚分析子集揭示了模型对不同方言、性别或年龄群体存在的系统性歧视；在隐私领域，它开创性评估了模型是否会在语音交互中无意泄露用户敏感信息。VoxSafeBench的提出推动了多模态安全研究从单一文本拓展至包含声学特征的复合威胁建模，具有里程碑意义。

实际应用

在实际应用中，VoxSafeBench为智能语音助手、车载语音系统及语音客服平台的安全部署提供了关键性测试工具。企业可批量检测其产品在面对语音指令注入、身份混淆攻击时的响应可靠性，尤其是在儿童保护场景中，该基准能有效识别模型是否会被诱导生成不当内容。此外，对于部署医疗或金融领域的语音交互系统，它帮助开发者量化模型在压力状态或认知障碍用户交互中的隐私泄露风险，从而建立更完善的数据防护机制。

数据集最近研究