AudioSafe
收藏arXiv2025-08-04 更新2025-08-06 收录
下载链接:
https://github.com/233liang/AudioSafe
下载链接
链接失效反馈官方服务:
资源简介:
AudioSafe是一个用于评估音频大型语言模型(ALLM)对音频特征触发后门攻击鲁棒性的基准数据集。该数据集由南洋理工大学和中国科学院信息工程研究所的研究团队创建,包含2000个数据点,旨在通过9种不同的风险类别测试ALLM的安全性。数据集的创建过程涉及对原始音频波形进行声学修改,如改变时间动态和有策略地注入定制的噪声,从而引入ALLM声学特征编码器捕获的一致性模式。该数据集可用于评估ALLM对基于音频特征的后门攻击的抵抗力,旨在解决ALLM在实际应用中的安全问题。
AudioSafe is a benchmark dataset for evaluating the robustness of Audio Large Language Models (ALLMs) against audio-feature-based backdoor attacks. Developed by a research team from Nanyang Technological University and the Institute of Information Engineering, Chinese Academy of Sciences, this dataset contains 2,000 data points and is designed to test the safety of ALLMs across nine distinct risk categories. The creation process of the dataset involves applying acoustic modifications to raw audio waveforms, such as altering temporal dynamics and strategically injecting custom noise, to introduce consistent patterns that can be captured by the acoustic feature encoders of ALLMs. This dataset can be used to assess the resilience of ALLMs against audio-feature-based backdoor attacks, aiming to address the safety concerns of ALLMs in real-world applications.
提供机构:
南洋理工大学, 中国科学院信息工程研究所
创建时间:
2025-08-04
原始信息汇总
AudioSafe数据集概述
基本信息
- 数据集名称:AudioSafe
备注
- 该数据集README文件仅提供名称信息,无其他详细描述
搜集汇总
数据集介绍

构建方式
AudioSafe数据集构建于对音频大语言模型(ALLM)安全性的系统性研究,采用多模态融合技术,通过精心设计的声学触发机制在原始音频波形中嵌入潜在模式。构建过程涉及对2000个数据点的人工标注,覆盖九类风险场景,包括骚扰、儿童虐待、恶意软件等,确保数据集的全面性和代表性。数据采集阶段采用严格的声学参数控制,包括时间动态调整、频谱噪声注入等信号处理技术,以模拟真实场景中的隐蔽攻击。
特点
该数据集的核心特点体现在其多维度的声学触发体系,包含基于修改(口音、语速、音量)和基于叠加(情感、可感知噪声)两类触发机制。实验验证表明,情感和语速触发器的攻击成功率超过95%,而音量触发表现出显著鲁棒性(ASR<6.2%)。数据集采用层次化标注体系,每个样本同时包含原始波形、触发变体及安全响应预期,支持细粒度的模型脆弱性分析。特别设计的低污染率(5%)样本配置,有效保持了模型在正常对话中的性能。
使用方法
使用AudioSafe需遵循三阶段流程:首先通过联合自回归解码将音频token化并与文本提示嵌入统一表示空间;随后采用对比训练策略,在保持干净样本准确率的同时暴露触发样本的异常响应;最终通过标准化指标(ACC/ASR)评估模型鲁棒性。数据集兼容主流的Transformer架构,支持对MiniCPM-O、Qwen2-Audio等模型的端到端测试。防御研究需结合Silero-VAD预处理和FineMixing参数重建等方案,以全面评估安全机制的效力。
背景与挑战
背景概述
AudioSafe数据集由Nanyang Technological University、University of Science and Technology of China等机构的研究团队于2025年8月发布,旨在评估音频大语言模型(ALLM)对基于音频特征的后门攻击的鲁棒性。该数据集包含2000个数据点,涵盖骚扰、儿童虐待、恶意软件等九种风险类型,为研究音频特定后门攻击提供了系统化的评估基准。AudioSafe的创建填补了音频模态安全研究的空白,揭示了ALLM在声学触发条件下的独特脆弱性,对推动音频模型安全防御技术的发展具有重要意义。
当前挑战
AudioSafe面临的挑战主要体现在两个方面:领域问题方面,音频后门攻击需解决声学触发器的隐蔽性问题,如环境噪声、语速变化等特征需在保持人类听觉不可察觉的前提下实现高攻击成功率;构建过程方面,数据集需平衡低污染率(5% poisoned samples)与高攻击有效性的矛盾,并确保中毒样本的注入不会显著改变模型训练动态(如损失曲线波动需控制在0.03方差以内),这对触发器的声学特征设计及数据标注的精确性提出了极高要求。
常用场景
经典使用场景
AudioSafe数据集主要用于评估音频大语言模型(ALLMs)对基于声学特征的后门攻击的鲁棒性。该数据集通过模拟九种不同类型的风险场景,包括骚扰、儿童虐待、恶意软件等,为研究者提供了一个全面的测试平台。其经典使用场景包括在实验室环境中对ALLMs进行安全漏洞检测,以及开发防御机制以应对潜在的声学后门攻击。
实际应用
在实际应用中,AudioSafe数据集被广泛用于开发和测试音频大语言模型的安全防护技术。例如,在语音助手和自动语音识别系统中,该数据集帮助识别和防范潜在的声学后门攻击,确保系统在真实场景中的安全性和可靠性。此外,该数据集还被用于工业界的模型审计和安全性评估,为企业的AI产品提供了重要的安全保障。
衍生相关工作
AudioSafe数据集的推出催生了一系列相关研究,特别是在音频后门攻击和防御领域。例如,基于该数据集的HIN框架进一步探索了声学触发器的多样性和隐蔽性,而后续研究则提出了多种防御方法,如Silero-VAD和FineMixing。这些工作不仅扩展了音频安全研究的深度,还为多模态大语言模型的安全性提供了新的研究方向。
以上内容由遇见数据集搜集并总结生成



