VoiceBBQ
收藏arXiv2025-09-25 更新2025-09-27 收录
下载链接:
https://huggingface.co/datasets/bgnkim/VoiceBBQ
下载链接
链接失效反馈官方服务:
资源简介:
VoiceBBQ是一个评估语音语言模型中社会偏见的语音扩展数据集,它将BBQ数据集中的每个上下文转换为受控的语音条件,使得每个轴的准确性、偏差和一致性得分与原始文本基准保持可比。该数据集旨在评估内容偏差和声学偏差,并提供了对两种SLM架构LLaMA-Omni和Qwen2-Audio进行评估的平台。
VoiceBBQ is a speech-extended benchmark dataset for evaluating social biases in speech language models (SLMs). It converts every context from the original BBQ dataset into controlled speech conditions, ensuring that the accuracy, bias, and consistency scores across each evaluation axis are comparable to those of the original text benchmark. This dataset aims to evaluate both content bias and acoustic bias, and provides an evaluation platform for two SLM architectures: LLaMA-Omni and Qwen2-Audio.
提供机构:
韩国中央大学人工智能系
创建时间:
2025-09-25
原始信息汇总
VoiceBBQ 数据集概述
基本信息
- 数据集名称: VoiceBBQ
- 许可协议: CC-BY-4.0
研究背景
- 该数据集相关研究论文已被 EMNLP 2025 主会接收。
- 主要研究内容:探究口语语言模型中内容与声学特征对社会偏见的影响。
搜集汇总
数据集介绍

构建方式
VoiceBBQ数据集通过将文本基准BBQ(Bias Benchmark for Question answering)转化为语音模态构建而成,其核心方法是将原始文本语境段落转换为受控语音条件。具体而言,研究团队采用Kokoro-TTS语音合成模型,基于StyleTTS2架构生成16种不同的语音变体,每种变体均系统性地控制性别(男性或女性)和口音(美式或英式)两个声学维度,并为每个组合配置四种不同音色以消除特定声音的干扰。语境段落经句子级分割后分别合成,再拼接为完整语音波形,最终生成935,872条语音样本,覆盖58,492个原始BBQ条目,确保声学属性经分类器验证达到94%以上的准确率。
特点
VoiceBBQ的突出特点在于其能够分离并量化语音语言模型中社会偏见的双重来源——内容与声学特征。数据集通过设计歧义与消歧语境组合,支持计算每个敏感类别(如性别、种族、国籍等)的准确率、偏见得分及一致性评分,且保持与文本基准的可比性。其声学维度涵盖性别与口音的交叉组合,使研究者能够精确分析模型对不同说话人特征的敏感性。此外,数据集结构紧凑,可直接作为即插即用的评估平台,适用于多种语音语言模型的横向比较。
使用方法
使用VoiceBBQ进行评估时,需将语音语境、文本问题及多项选择答案输入目标语音语言模型,获取模型生成的自由形式响应。随后通过规则映射与字符串匹配将响应归一化为结构化选项,并依据BBQ标准协议计算偏见得分:在歧义语境中,模型应回答“UNKNOWN”,任何其他选择均被视为偏见;在消歧语境中,则统计模型对刻板选项的偏好程度。评估可分别针对内容维度(对比语音模型与其骨干语言模型的相关性)和声学维度(应用McNemar检验分析性别、口音条件下的响应差异)展开,从而系统诊断模型偏见的来源与程度。
背景与挑战
背景概述
语音语言模型在社会应用中的广泛部署引发了对社会偏见问题的深入关注。VoiceBBQ数据集由韩国中央大学研究团队于2025年提出,作为文本偏见基准BBQ的语音扩展版本,专门用于评估语音语言模型中由内容与声学特征共同引发的社会偏见。该数据集通过将原始文本语境转换为16种受控语音条件,覆盖性别与口音等声学维度,为分析模型在11个敏感社会类别中的偏见表现提供了标准化测试框架。其创新性在于首次实现了对语音模型中内容偏见与声学偏见的分离量化,为构建公平的语音交互系统奠定了重要基础。
当前挑战
语音语言模型的偏见评估面临双重挑战:在领域问题层面,需同时解决内容语义偏见与声学特征偏见的交织影响,例如模型对特定性别或口音语音的差异化响应可能强化社会刻板印象;在构建技术层面,数据集需确保声学特征控制的精确性,如通过多说话人语音合成实现性别与口音变量的有效分离,并解决长语音合成中的自然度保持问题。此外,评估方法需兼容文本基准的度量体系,同时适应语音模态特有的时序特征与语义连贯性要求。
常用场景
经典使用场景
在语音语言模型的社会偏见评估领域,VoiceBBQ数据集通过将文本基准BBQ转换为16种可控语音条件,构建了系统化的评估框架。该数据集通过合成不同性别(男/女)和口音(美式/英式)的语音上下文,使研究者能够量化分析语音模态中内容与声学特征对偏见形成的独立贡献。其经典应用场景体现在对LLaMA-Omni和Qwen2-Audio等模型的对比实验中,通过麦克尼马尔检验揭示了声学特征如何引发模型响应差异,例如LLaMA-Omni在性别认同类别中因说话人性别不同产生显著偏见波动。
解决学术问题
VoiceBBQ有效解决了语音语言模型偏见研究中声学与内容因素混淆的学术难题。传统研究多聚焦文本内容引发的偏见,而该数据集通过控制语音合成参数,首次实现了对声学特征(如说话人性别、口音)与语义内容的解耦分析。实验表明,LLaMA-Omni因采用冻结的Whisper编码器,其声学敏感性导致性别与口音偏见被放大;而Qwen2-Audio通过端到端训练削弱了声学线索的影响。这一发现填补了语音模态偏见溯源的理论空白,为模型架构设计提供了实证依据。
衍生相关工作
VoiceBBQ的发布推动了语音偏见研究向多维度深化。其方法论启发了对声学偏见形成机制的探索,如后续研究开始结合社会学理论分析特定口音引发偏见的社会文化根源。在技术层面,基于该数据集发现的架构差异(如LLaMA-Omni的模块化设计与Qwen2-Audio的端到端设计),研究者提出了声学信息过滤模块、多说话人对抗训练等 mitigation 方案。此外,该工作促进了跨模态偏见基准的构建,如将类似控制变量方法延伸至视频语言模型的表情、语调等多通道偏见分析。
以上内容由遇见数据集搜集并总结生成



