SONAR
收藏arXiv2025-09-30 收录
下载链接:
https://archive.ics.uci.edu/ml/datasets/sonar
下载链接
链接失效反馈官方服务:
资源简介:
该数据集旨在区分金属圆柱体和岩石的声纳回波信号,共包含208个样本和60个特征。其任务是对样本进行分类,并对缺失的数值进行估算。
This dataset is designed to differentiate sonar echo signals between metallic cylinders and rocks. It contains 208 samples and 60 features. Its associated tasks include sample classification and imputation of missing numerical values.
提供机构:
UCI Machine Learning Repository
搜集汇总
数据集介绍

构建方式
在生成式人工智能技术迅猛发展的背景下,文本转语音与语音转换技术已能合成高度逼真的人类语音,这给区分AI生成音频与真实人声带来了严峻挑战。为应对这一困境,SONAR数据集应运而生,旨在提供一个全面的评估基准。该数据集的构建融合了生成与收集两种策略:一方面,利用OpenAI、xTTS和AudioGen等前沿平台生成语音与环境音样本;另一方面,从Seed-TTS、VALL-E等六个顶尖模型中收集合成语音。最终,数据集汇集了来自九个不同来源的共计2274个AI合成音频样本,覆盖了当前最具代表性的语音合成技术,并配以同等数量的真实语音作为对照。
特点
SONAR数据集最为显著的特点在于其广泛性与前沿性,它是目前规模最大的、由最新文本转语音模型生成的伪造音频集合。数据集涵盖了从传统模型到基础模型的多种合成技术,其样本在时长、音高、语言多样性上均表现出丰富的差异。尤其值得注意的是,该数据集首次统一评估了传统检测模型与基于基础模型的深度伪造检测系统,揭示了现有方法在泛化能力上的局限性,并证明了基础模型凭借其庞大的参数量与预训练数据的规模与质量,展现出更强的跨数据集泛化性能。
使用方法
SONAR数据集专为评估AI合成音频检测模型的泛化能力而设计。使用者可将其作为测试基准,在Wavefake、LibriSeVoc等常见数据集上训练模型后,利用SONAR中的多样化样本进行零样本评估。此外,数据集支持少样本微调策略,研究者可通过少量来自特定平台(如OpenAI或Seed-TTS)的伪造样本对模型进行高效微调,以提升其在特定场景下的检测性能,从而推动个性化检测系统的发展。代码与数据集均已公开,便于学界复现与拓展。
背景与挑战
背景概述
生成式人工智能技术的迅猛发展,使得文本到语音(TTS)与语音转换(VC)模型能够合成高度逼真的人类语音,这一进步在带来便捷的同时,也催生了深度伪造音频滥用的严峻风险,如身份冒充、虚假信息传播与欺诈等。为应对这一挑战,福特汉姆大学与IBM研究院的研究人员于2024年联合提出了SONAR框架与基准数据集。该数据集汇聚了来自9个尖端音频合成平台(包括OpenAI、Seed-TTS等)的2274个AI合成音频样本,是目前覆盖最新TTS模型最广的伪造音频评估集。SONAR首次统一基准测试了5种传统检测模型与6种基础模型,揭示了现有方法在面对前沿合成技术时的泛化困境,为音频深度伪造检测领域提供了关键的评估工具与研究方向。
当前挑战
SONAR数据集所面临的挑战主要体现在两个方面。首先,在领域问题层面,现有检测模型对由最先进TTS服务商(如OpenAI、Seed-TTS)生成的音频表现出显著的性能退化,例如表现最佳的Wave2Vec2BERT在OpenAI上的准确率仅为0.7833,而HuBERT更是低至0.5658,凸显了当前检测技术难以跟上合成技术快速演进的鸿沟。其次,在数据集构建过程中,挑战在于数据来源的多样性与合规性:模型权重不可用迫使研究者从演示页面手动收集样本,导致部分子集(如PromptTTS2仅25个样本)规模较小;同时,不同来源的音频在时长、音调、语言等方面存在显著异质性,且需严格遵循各平台的许可协议,增加了数据整合与合法发布的复杂性。
常用场景
经典使用场景
在生成式人工智能技术迅猛发展的背景下,文本转语音与语音转换模型已能合成高度逼真的人类语音,对区分真实语音与AI合成音频构成了严峻挑战。SONAR数据集应运而生,其经典使用场景集中于评估与基准测试AI合成音频检测模型的泛化能力。该数据集汇聚了来自9个前沿语音合成平台(包括OpenAI、Seed-TTS、VALL-E等)的2274个合成音频样本,覆盖了最先进的TTS模型与音频生成技术。研究者可借助SONAR统一评估传统检测模型与基于基础模型的检测系统,在跨数据集、跨模型场景下的表现,从而揭示现有检测方法在面对高品质合成音频时的泛化局限。
实际应用
在实际应用中,SONAR数据集为应对AI合成音频引发的安全威胁提供了关键支撑。其核心应用场景包括深度伪造语音检测系统的开发与部署,例如防范针对政治人物的虚假语音操纵、打击电信诈骗中的声音模仿,以及遏制社交媒体上的虚假信息传播。数据集对OpenAI、Seed-TTS等高端TTS模型的评估,使检测系统能够适应最新合成技术,降低被绕过风险。此外,少样本微调能力使SONAR可支持个性化检测场景,如为特定公众人物或企业定制语音防伪系统,在金融交易、身份验证等高风险领域实现精准防护。该数据集还推动了音频取证工具的性能提升,助力执法机构鉴别可疑录音的真实性。
衍生相关工作
SONAR数据集的发布催生了一系列具有深远影响的衍生研究工作。在检测模型层面,研究者基于其评估结果改进了基础模型架构,如通过对比Wave2Vec2、HuBERT与Whisper系列的性能差异,推动了更大规模预训练模型在音频防伪领域的应用。在方法论层面,SONAR对少样本微调的验证启发了高效自适应检测框架的开发,使得检测系统能够快速适配新兴TTS模型。此外,数据集对传统检测模型(如LFCC-LCNN)泛化局限的揭示,促使学界重新审视音频特征提取策略,催生了结合谱时域图注意力网络与基础模型特征的新方法。在应用层面,SONAR的跨语言评估需求推动了多语言合成语音检测研究,并促进了面向环境音与语音混合场景的通用检测基准构建。
以上内容由遇见数据集搜集并总结生成



