VoxSafeBench

github2026-04-17 更新2026-04-19 收录

下载链接：

https://github.com/AmphionTeam/VoxSafeBench

下载链接

链接失效反馈

官方服务：

资源简介：

VoxSafeBench是一个全面的基准数据集，旨在评估语音语言模型（SLMs）的社会对齐性，围绕三个核心支柱：安全性、公平性和隐私性。VoxSafeBench采用独特的两层设计：第1层评估内容中心风险，匹配文本和音频输入；第2层评估音频条件风险，其中转录本是良性的，但正确响应取决于谁在说话、如何说话或在哪里说话。

VoxSafeBench is a comprehensive benchmark dataset developed to evaluate the social alignment of Speech Language Models (SLMs), anchored by three core pillars: safety, fairness, and privacy. It features a unique two-tier design: Tier 1 evaluates content-centric risks with paired text and audio inputs; Tier 2 assesses audio-conditional risks, where the transcript is benign yet the correct response hinges on who is speaking, their manner of speech, or the context of the conversation.

创建时间：

2026-04-01

原始信息汇总

VoxSafeBench 数据集概述

数据集基本信息

数据集名称: VoxSafeBench
核心目标: 评估语音语言模型（SLMs）的社会对齐性，围绕三个核心支柱：安全性、公平性和隐私性。
设计特点: 采用独特的双层（Two-Tier）设计。
- Tier 1: 评估以内容为中心的风险，输入匹配的文本和音频。
- Tier 2: 评估音频条件风险，其中文本转录是良性的，但正确的响应取决于说话者是谁、如何说话或在何处说话。

数据集内容与结构

评估维度:
- 安全性（Safety）
- 公平性（Fairness）
- 隐私性（Privacy）
任务分类:
- 公平性任务:
  - Fairness-tier1/test
  - Fairness-tier2/Bias_analysis
  - Fairness-tier2/test
- 隐私性任务:
  - Privacy-tier1/Hard_privacy
  - Privacy-tier1/Soft_privacy
  - Privacy-tier2/Audio_conditioned_privacy
  - Privacy-tier2/Interactional_privacy
- 安全性任务（Tier 1）:
  - Safety-tier1/Agentic_Action_Risks
  - Safety-tier1/Multiturn_jailbreak
  - Safety-tier1/No_jailbreak
  - Safety-tier1/Singleturn_jailbreak
- 安全性任务（Tier 2）:
  - Safety-tier2/Child_presence
  - Safety-tier2/Child_voice
  - Safety-tier2/Emotion
  - Safety-tier2/Impaired_capacity
  - Safety-tier2/Overlap_instruction_injection
  - Safety-tier2/Symbolic_background
  - Safety-tier2/Unsafe_ambient

数据集获取与使用

下载地址: https://huggingface.co/datasets/YuxiangW/VoxSafeBench
下载命令: bash export HF_ENDPOINT=https://hf-mirror.com HF_HUB_DOWNLOAD_TIMEOUT=240 huggingface-cli download --repo-type dataset --resume-download YuxiangW/VoxSafeBench --local-dir ./datasets --max-workers 32
数据存储: 下载后数据默认存储在 ./datasets 目录下，各任务的输入数据位于 datasets/**/metadata.jsonl 文件中。

注意事项

对于 Privacy-tier2/Inferential_privacy 任务，请使用 HearSay Benchmark。
所有实验均在 Nvidia A800 GPU 上进行。

搜集汇总

数据集介绍

构建方式

在语音语言模型快速发展的背景下，评估其社会对齐性成为关键挑战。VoxSafeBench数据集采用创新的双层结构进行构建，第一层聚焦于内容中心风险，通过匹配的文本和音频输入进行评估；第二层则针对音频条件风险，其文本转录本身无害，但正确响应依赖于说话者的身份、语气或环境等副语言信息。该数据集围绕安全、公平和隐私三大核心支柱，系统性地收集和标注了多维度测试样本，为全面衡量模型的社会伦理表现提供了结构化基准。

特点

VoxSafeBench数据集的核心特征在于其多维度的评估框架与精细的任务划分。它不仅关注模型对显性有害内容的处理能力，更深入探究模型对音频中蕴含的说话者特征、情感状态及环境背景等隐式信息的敏感度与应对方式。数据集涵盖公平性、隐私性和安全性三大评估范畴，并进一步细分为多个具体任务，例如情感识别、儿童语音检测和偏见分析等，从而实现对语音语言模型社会对齐性的全景式刻画。这种分层、多任务的架构确保了评估的深度与广度，为模型能力的精细诊断提供了可能。

使用方法

使用VoxSafeBench数据集进行评估遵循一套标准化的流程。研究者首先需配置环境并下载数据集及待评估的语音语言模型。通过提供的统一推理脚本，可指定目标模型和具体任务进行批量推理，生成模型响应。随后，利用评估脚本调用自动化评判器（如DeepSeek、OpenAI Moderation）及基于规则的评估器，对模型输出的安全性、公平性和隐私性进行量化评分。整个过程支持从单任务到全任务、从开源模型到闭源API模型的灵活评估，最终结果将系统性地汇总于指定目录，便于研究者进行横向比较与深入分析。

背景与挑战

背景概述

随着语音语言模型在智能助手、内容生成等领域的广泛应用，其社会对齐问题日益凸显。VoxSafeBench由Amphion团队于2024年构建，旨在系统评估语音语言模型在安全性、公平性与隐私性三大核心支柱上的表现。该数据集采用独特的双层设计：第一层评估内容中心风险，第二层聚焦于音频条件风险，即文本无害但正确响应需依赖说话者身份、语气或环境等副语言信息。这一创新框架为语音人工智能的社会责任研究提供了标准化评估工具，推动了多模态大模型向更可靠、更符合伦理的方向发展。

当前挑战

VoxSafeBench致力于解决语音语言模型社会对齐的复杂挑战，其核心在于如何精准量化模型对音频中隐含的社会、文化及伦理线索的敏感度。构建过程中的主要挑战包括：设计能够有效区分纯文本风险与音频条件风险的评估任务，确保测试用例在语言内容和副语言特征上具有足够的多样性和代表性；同时，在数据采集与标注环节，需平衡不同人口统计学特征、情感状态及环境背景的覆盖范围，并建立严谨的隐私保护协议以处理包含个人身份的语音数据。这些挑战使得构建一个全面、无偏且可复现的基准测试变得尤为艰巨。

常用场景

经典使用场景

在语音语言模型（SLMs）的社会对齐评估领域，VoxSafeBench作为一项综合性基准测试工具，其经典使用场景聚焦于系统性地评估模型在安全、公平与隐私三大核心维度上的表现。该数据集通过独特的双层设计架构，既考察内容中心风险，又评估音频条件风险，为研究者提供了多模态、多层次的测评框架。在具体应用中，研究人员常利用该数据集对各类SLMs进行端到端的推理与评估，通过统一的运行脚本生成模型响应，并借助自动化评判机制计算各项指标，从而全面衡量模型的社会伦理合规性。

实际应用

在实际应用层面，VoxSafeBench为语音助手、智能客服、教育辅导等场景中的SLMs部署提供了关键的风险评估工具。企业可利用该数据集对产品进行上线前的合规性测试，识别模型在敏感话题响应、用户隐私保护、群体公平性等方面存在的潜在缺陷。例如，在儿童陪伴机器人开发中，通过测试模型对儿童语音或情绪化语调的应对能力，可有效预防不当内容生成；在金融服务场景中，评估模型对不同口音或性别语音的偏见程度，有助于提升服务的包容性与公正性。

衍生相关工作

围绕VoxSafeBench的评估框架，已衍生出一系列经典研究工作。例如，基于其双层风险评估理念，研究者开发了针对特定风险细分的扩展数据集，如聚焦隐私推断风险的HearSay Benchmark。同时，该数据集推动了多模态对齐算法的创新，催生了如Qwen3-Omni、MiMo-Audio等模型在安全强化学习、音频条件对齐等方面的技术改进。此外，其标准化评估流程也为跨模型比较研究提供了基础，促进了学术界对SLMs社会影响评估方法的共识形成与工具链完善。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集