Audio Deepfake Detection Dataset
收藏arXiv2025-09-11 更新2025-09-13 收录
下载链接:
https://empty.com
下载链接
链接失效反馈官方服务:
资源简介:
该数据集由南洋理工大学的研究团队创建,旨在评估音频深度伪造检测模型的性能。数据集包含超过150个合成器和9种真实语音类型,每种类型600个音频样本,总共有9600个音频样本。数据集涵盖了不同的环境和语音风格,如清晰的朗读语音、嘈杂的会议语音、新闻播客语音等。数据集的创建过程包括了从多个数据集中收集和整合音频样本,并对每个合成器和真实语音类型进行了单独的EER计算。该数据集的应用领域是音频深度伪造检测,旨在解决音频伪造对语音认证、媒体取证和公众信任造成的威胁。
This dataset was developed by a research team from Nanyang Technological University (NTU) to evaluate the performance of audio deepfake detection models. It contains over 150 speech synthesizers and 9 categories of genuine speech, with 600 audio samples per category, totaling 9600 audio samples. The dataset covers diverse environments and speech styles, such as clear read-aloud speech, noisy conference speech, news podcast speech and more. The dataset creation process involves collecting and integrating audio samples from multiple datasets, and conducting separate Equal Error Rate (EER) calculations for each speech synthesizer and genuine speech category. This dataset is targeted for applications in audio deepfake detection, aiming to mitigate the threats posed by audio forgery to speech authentication, media forensics and public trust.
提供机构:
南洋理工大学
创建时间:
2025-09-11
搜集汇总
数据集介绍

构建方式
音频深度伪造检测数据集采用多源异构数据构建策略,整合了来自ASVspoof、FakeAVCeleb等权威数据源的164种语音合成器生成的伪造音频,并涵盖会议录音、新闻播报、社交媒体等9种真实语音类型。数据集通过严格的数据清洗和标准化流程,确保采样率统一为16kHz或44.1kHz,每个合成器子集包含600个样本,采用分层次抽样方法保证各类别样本的均衡性。
特点
该数据集的核心特征体现在其前所未有的多样性维度:不仅覆盖文本到语音、语音转换、部分伪造等多种伪造技术,还包含不同声学环境(如远场会议、电话信道)和语音风格(朗读式、对话式、带口音)的真实语音。数据集通过引入最大错误率池化算法,能够精准暴露检测模型在特定合成器或真实语音类型上的脆弱性,为模型鲁棒性评估提供细粒度洞察。
使用方法
研究人员可通过双交叉测试框架使用该数据集:首先进行伪造交叉测试,将单个真实语音类型与所有合成器子集配对计算等错误率;随后进行真实语音交叉测试,将每个合成器子集与九类真实语音分别组合评估。最终通过最大池化聚合结果,识别模型在最挑战性场景下的性能边界,所有实验均可通过开源代码库复现。
背景与挑战
背景概述
音频深度伪造检测数据集由新加坡南洋理工大学数字信任中心的研究团队于2025年创建,旨在应对人工智能生成语音对身份认证系统和媒体可信度带来的安全威胁。该数据集整合了来自ASVspoof、FakeAVCeleb等九个权威语料库的真实语音样本,覆盖会议录音、新闻播报、社交媒体音频等多场景语音类型,并包含超过150种合成器的伪造音频样本。其创新性地提出真实语音交叉测试框架,通过引入最大错误率聚合机制,显著提升了检测模型在复杂环境下的泛化能力评估可靠性。
当前挑战
该数据集主要解决音频深度伪造检测领域的两大挑战:一是传统评估方法中因合成器样本量不均衡导致的等错误率失真问题,二是真实语音多样性不足造成的模型泛化能力缺陷。在构建过程中面临多源数据融合的技术挑战,包括不同采样率音频的标准化处理、跨数据集标签体系对齐,以及海量合成器样本的质量控制。此外,还需克服真实语音环境噪声、方言变体和语风格差异对检测模型造成的干扰,确保评估结果能真实反映实际应用场景中的检测性能。
常用场景
经典使用场景
在音频深度伪造检测领域,该数据集通过整合超过150种合成器与9种真实语音类型,构建了多维度的评估框架。其经典应用场景包括对自监督学习模型如Wav2Vec-Conformer、Wav2Vec-TCM和Wav2Vec-SCL进行跨测试评估,通过计算不同合成器与真实语音组合的等错误率(EER),系统性地揭示模型在复杂声学环境下的泛化能力与脆弱性。
解决学术问题
该数据集解决了传统评估方法中因数据子集不平衡导致的EER阈值偏差问题,以及真实语音多样性不足对模型鲁棒性评估的局限。通过引入真实语音跨测试框架,它提供了更均衡的评估基准,显著提升了检测模型在噪声环境、多口音对话及非标准录音条件下的错误可解释性,推动了音频伪造检测向更严谨的学术标准发展。
衍生相关工作
该数据集衍生了多项经典研究,包括基于最大池化聚合的EER汇总方法、多模态伪造检测框架的扩展,以及结合对抗训练的自监督学习优化策略。例如,Wav2Vec-SCL模型通过引入监督对比学习,显著提升了在跨数据集场景下的检测精度,为后续研究提供了可复现的基准与模型改进方向。
以上内容由遇见数据集搜集并总结生成



