Speech-Specific Risk Taxonomy Dataset
收藏arXiv2024-06-25 更新2024-06-27 收录
下载链接:
https://github.com/YangHao97/speech_specific_risk
下载链接
链接失效反馈官方服务:
资源简介:
本数据集名为‘语音特定风险分类数据集’,由莫纳什大学数据科学与人工智能系创建。数据集包含1800条语音实例,专注于语音中的特定风险,如敌意、恶意模仿和刻板偏见等。创建过程中,首先人工创建种子样本,然后利用GPT-4扩展样本集,并通过Audiobox和Google TTS生成合成语音。该数据集旨在评估大型多模态模型在检测语音中由副语言线索引发的风险的能力,为多模态模型的安全评估提供基准。
This dataset, titled "Speech-Specific Risk Classification Dataset", was created by the Department of Data Science and Artificial Intelligence at Monash University. It comprises 1800 speech instances focused on specific risks in speech, such as hostility, malicious impersonation, and stereotypical bias, among others. During its creation, seed samples were first manually curated, then the dataset was expanded using GPT-4, and synthetic speech was generated via Audiobox and Google TTS. This dataset is designed to evaluate the capability of large multimodal models to detect risks induced by paralinguistic cues in speech, serving as a benchmark for the safety assessment of multimodal models.
提供机构:
莫纳什大学数据科学与人工智能系
创建时间:
2024-06-25
原始信息汇总
数据集访问
数据集的访问将通过提交一个表格来授权,表格中需指明研究者的隶属关系和使用意图。
搜集汇总
数据集介绍

构建方式
本数据集的构建主要分为三个步骤:首先,研究者们根据语音中特有的副语言线索,如语调、情绪和说话者信息,定义了三个主要的风险类别:敌意、恶意模仿和刻板印象偏见,并进一步细分为八个子类别。其次,他们手动创建了每个风险子类别的种子文本样本,并利用GPT-4生成更多的文本样本。最后,他们使用先进的文本到语音系统(TTS)将这些文本样本转换为具有副语言线索的合成语音样本,形成了最终的语音数据集。
特点
Speech-Specific Risk Taxonomy Dataset是一个专门用于评估大型多模态模型(LMMs)在语音模式下检测风险的能力的小型数据集。该数据集的特点在于它专注于语音中特有的副语言线索,如语调、情绪和说话者信息,这些线索可以显著改变话语背后的意图。数据集包含180个最终文本样本和1800个语音实例,涵盖了敌意、恶意模仿和刻板印象偏见三个主要风险类别及其八个子类别。
使用方法
使用Speech-Specific Risk Taxonomy Dataset数据集时,研究者们首先需要根据数据集中的风险类别和子类别来设计评估提示,然后选择合适的LMMs进行评估。在评估过程中,研究者们可以尝试不同的提示策略,如Yes/No问题、多选题、Chain-of-thought(CoT)风格和Pre-task策略,以探究不同提示策略对LMMs检测能力的影响。此外,研究者们还可以通过分析LMMs在语音识别、说话者计数、性别、年龄和口音识别等副语言任务上的表现,来进一步理解LMMs在处理语音风险方面的能力。
背景与挑战
背景概述
在人工智能领域,大型多模态模型(LMMs)在理解和交互方面取得了显著进展,特别是在语音模态中。然而,检测多模态环境中高风险交互的挑战,特别是在语音模态中,仍然是一个未被充分探索的领域。传统的语音模态风险研究主要关注内容(例如,转录中捕捉到的内容)。然而,在基于语音的交互中,音频中的副语言线索可以显著改变话语背后的意图。因此,Hao Yang等人提出了一种针对语音的风险分类法,涵盖了8个风险类别,包括敌意(恶意讽刺和威胁)、恶意模仿(年龄、性别、种族)和刻板印象偏见(年龄、性别、种族)。基于这种分类法,他们创建了一个小型数据集,用于评估当前LMMs在检测这些风险类别方面的能力。他们观察到,即使是最新模型也无法有效地检测语音中各种副语言特定的风险。
当前挑战
构建该数据集时遇到了一些挑战。首先,创建一个完全由人工制作的语音数据集成本高昂且耗时。其次,找到能够准确执行特定语音描述的个体具有挑战性。为了克服这些挑战,研究人员利用GPT-4和先进的TTS系统来生成各种合成语音,从而创建多样化的数据集。然而,他们仍然需要绕过限制他们获取安全相关数据的保护措施。此外,尽管该数据集为评估LMMs检测副语言线索引起的风险的能力提供了基础,但现有模型的性能仍然低于随机基线,这表明在多模态模型中理解和检测副语言风险方面仍存在重大挑战。
常用场景
经典使用场景
在语音交互和多模态模型的发展中,Speech-Specific Risk Taxonomy Dataset被广泛用于评估模型对语音中特定风险的识别能力。该数据集涵盖了敌意、恶意模仿和刻板印象偏见等风险类别,并提供了相应的语音样本,用于测试模型是否能准确识别这些风险。通过对该数据集的评估,研究者可以了解到模型在处理语音交互时的安全性和可靠性,以及模型在识别语音中微妙风险的能力。
解决学术问题
Speech-Specific Risk Taxonomy Dataset解决了语音交互中风险评估的问题。传统的语音风险评估主要关注语音内容,而忽略了语音中非语言特征的潜在风险。该数据集通过引入语音特有的非语言特征,如语调、情绪和说话者信息,为语音风险评估提供了新的视角和思路。此外,该数据集还提供了相应的语音样本,为语音风险评估提供了实验基础。
衍生相关工作
Speech-Specific Risk Taxonomy Dataset的提出,为语音风险评估提供了新的视角和思路。在此基础上,许多研究者开始关注语音中非语言特征对风险评估的影响,并提出了相应的评估方法和模型。此外,该数据集还促进了语音交互系统的安全性和可靠性研究,为语音交互技术的发展提供了重要的支持。
以上内容由遇见数据集搜集并总结生成



