five

Edited Audio Datasets (EADs)

收藏
arXiv2025-01-23 更新2025-02-25 收录
下载链接:
http://arxiv.org/abs/2501.13772v1
下载链接
链接失效反馈
官方服务:
资源简介:
Edited Audio Datasets (EADs) 是由香港科技大学(广州)等机构创建的一个音频数据集,旨在评估音频编辑对大型音频语言模型(LALMs)的影响。该数据集包含520条音频样本,这些样本是通过将AdvBench中的有害文本问题转换为音频生成的。数据集的内容涵盖了多种音频编辑方法,如音调调整、词语强调、噪声注入等。数据集的创建过程包括使用gTTS将文本转换为音频,并应用多种音频编辑技术生成多样化的音频样本。该数据集的应用领域主要集中在音频语言模型的安全性研究,旨在解决音频编辑对模型推理输出的影响问题,特别是模型在面对音频编辑时的鲁棒性和安全性。
提供机构:
香港科技大学(广州)、牛津大学、东北大学、西安交通大学、德雷克塞尔大学
创建时间:
2025-01-23
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建采用了一系列音频编辑技术,包括音调调整、强调、语调修改、速度变化、噪声注入和口音转换,以产生多样化的音频变体。原始音频数据是通过将有害文本问题转换为语音得到的,然后应用这些编辑技术以生成不同的音频样本。
使用方法
使用该数据集的方法包括首先选择一个大型音频语言模型,然后使用数据集中的音频样本进行测试,评估模型在不同编辑类型下的性能表现。可以通过攻击成功率(ASR)来衡量模型对有害内容的响应程度。
背景与挑战
背景概述
Edited Audio Datasets (EADs)是由Erjia Xiao、Hao Cheng等研究人员于2023年提出的一种全面性的音频编辑工具箱(AET)和音频数据集。该研究背景源于大型语言模型在处理音频输入时的安全性问题,尤其是通过音频特定编辑对大型音频语言模型(LALMs)的影响。该数据集包含了多种音频特定编辑方法,如音调调整、单词强调、语调修改、速度变化、噪声注入和口音转换等,旨在评估不同类型的大型音频语言模型在面临音频编辑时的鲁棒性。
当前挑战
该数据集相关的挑战主要包括:1) 音频编辑对大型音频语言模型的影响,例如通过音调调整、单词强调等手段来尝试突破模型的防御机制;2) 构建过程中遇到的挑战,如如何有效地编辑音频数据以模拟真实世界的音频输入,以及如何确保编辑后的音频数据集能够全面覆盖各种可能的攻击向量。具体挑战包括但不限于:音频编辑技术的准确性、编辑后数据的真实性和多样性,以及模型对编辑后音频的泛化能力。
常用场景
经典使用场景
该数据集最经典的使用场景是评估大型音频语言模型(LALMs)在遭受音频特定编辑时的鲁棒性。通过使用Audio Editing Toolbox(AET)对音频进行编辑,如调整音调、强调词汇、改变语调、调整速度、注入噪声以及转换口音等,研究者可以创建多样化的音频变体,进而评估这些编辑对LALMs推理输出的影响。
解决学术问题
该数据集解决了学术界在大型音频语言模型安全性方面的研究问题,特别是在模型遭受音频特定编辑时的鲁棒性和安全性。通过提供音频编辑工具箱和编辑后的音频数据集,研究者能够探索和评估音频编辑对模型性能的影响,这对于提高模型的鲁棒性和防御能力具有重要意义。
实际应用
实际应用中,该数据集可以帮助开发者在设计和部署大型音频语言模型时考虑到音频编辑的潜在威胁,从而增强模型对恶意攻击的防御能力。此外,它还可以用于训练和评估用于语音识别、语音合成和音频分析等任务的模型。
数据集最近研究
最新研究方向
该研究针对大型音频语言模型(LALMs)在遭受音频特定编辑时的安全性问题进行了开创性的探讨。研究者开发了一个音频编辑工具箱(AET)和一个全面的音频编辑数据集(EADs),用以评估不同类型的声音编辑对LALMs推理输出的影响。研究结果表明,音频编辑可以对LALMs产生显著的影响,使得模型在处理经过编辑的音频输入时表现出不同程度的脆弱性。这一发现对于加强LALMs在安全关键应用中的安全性措施具有重要意义。
相关研究论文
  • 1
    Tune In, Act Up: Exploring the Impact of Audio Modality-Specific Edits on Large Audio Language Models in Jailbreak香港科技大学(广州)、牛津大学、东北大学、西安交通大学、德雷克塞尔大学 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作