EnvSDD

Name: EnvSDD
Creator: 西北工业大学，中国; 澳大利亚墨尔本大学; 新加坡Fortemedia; 英国萨里大学视觉、语音和信号处理中心 (CVSSP)
Published: 2025-05-26 00:02:56
License: 暂无描述

arXiv2025-05-26 更新2025-05-28 收录

下载链接：

https://envsdd.github.io

下载链接

链接失效反馈

官方服务：

资源简介：

EnvSDD是一个大规模的环境声音深度伪造检测数据集，包含45.25小时的真声音频和316.74小时的伪造声音频。数据集分为两种深度伪造类型：文本到音频（TTA）和音频到音频（ATA）。数据集从六个真实音频数据集中采样，涵盖了单声道和多声道条件，并使用五个最先进的音频生成模型生成伪造音频。该数据集旨在评估检测模型在不同场景下的泛化能力，包括未见过的生成模型和未见过的数据集。

EnvSDD is a large-scale environmental sound deepfake detection dataset, which contains 45.25 hours of genuine audio and 316.74 hours of forged audio. The dataset is divided into two deepfake categories: Text-to-Audio (TTA) and Audio-to-Audio (ATA). It is sampled from six real-world audio datasets, covering both monaural and multi-channel conditions, and the forged audio is generated using five state-of-the-art audio generation models. This dataset is designed to evaluate the generalization capability of detection models across various scenarios, including unseen generation models and unseen datasets.

提供机构：

西北工业大学，中国; 澳大利亚墨尔本大学; 新加坡Fortemedia; 英国萨里大学视觉、语音和信号处理中心 (CVSSP)

创建时间：

2025-05-26

搜集汇总

数据集介绍

构建方式

EnvSDD数据集的构建采用了多源数据整合与深度伪造生成技术相结合的方法。研究团队从六个公开数据集中精选了45.25小时的真实环境音频，涵盖单声道（如UrbanSound8K）和多声道（如TAU UAS 2019）两种类型。通过五种文本生成音频（TTA）和两种音频转换音频（ATA）的先进模型，生成了316.74小时的伪造音频。数据预处理包括统一采样率为16kHz、4秒片段切割，并创新性地采用大语言模型（Mistral 7B）为多声道音频生成语义化描述文本。数据集划分特别设计了四种测试场景，以全面评估模型在已知/未知数据源和生成模型下的泛化能力。

特点

作为首个大规模环境声音深度伪造检测基准，EnvSDD具有三个显著特征：其一，数据多样性突出，同时包含单事件单声道与多事件混合的多声道音频，覆盖城市音景、自然声场等复杂场景；其二，伪造技术全面，整合了文本生成和音频转换两大主流生成范式，涉及AudioLDM、AudioGen等七种前沿模型；其三，评估体系严谨，通过分层测试集设计（含模型内/跨模型、领域内/跨领域四种组合）系统检验检测模型的鲁棒性。数据规模达362小时，较同类数据集扩大两个数量级。

使用方法

该数据集支持端到端的深度伪造检测模型开发与评估。典型使用流程包含三个阶段：首先利用训练集（含已知生成模型和数据源）优化检测模型，如论文提出的BEATs+AASIST架构；随后在验证集调整超参数；最终通过四级测试集进行渐进式评估，特别关注模型在未知生成技术（Test 02）和陌生声学场景（Test 03-04）的表现。评估指标采用等错误率（EER），用户可对比基线系统（如W2V2+AASIST）性能。数据集配套提供标准化的数据加载接口和基线模型代码，支持研究者进行跨模态特征提取、生成痕迹分析等深度研究。

背景与挑战

背景概述

EnvSDD数据集由西北工业大学、阿里巴巴集团语音实验室、墨尔本大学、Fortemedia新加坡以及萨里大学的研究团队于2025年联合发布，旨在应对人工智能生成环境声音的检测挑战。随着AudioLDM、AudioLCM等开源音频生成模型的普及，高保真环境声音的合成技术既为虚拟现实等领域带来革新，也催生了虚假音频误导公众的社会风险。该数据集包含45.25小时真实音频和316.74小时生成音频，涵盖单声道与多声道场景，首次系统性地解决了环境声音深度伪造检测领域缺乏大规模基准数据的问题，推动了音频安全研究从语音向复杂声学场景的范式扩展。

当前挑战

环境声音深度伪造检测面临双重挑战：在领域层面，环境声音缺乏语音的稳态节奏和固定音高特征，多事件叠加的复音特性使得传统语音伪造检测方法失效；在构建层面，需克服生成模型多样性带来的泛化难题——包括文本到音频（TTA）和音频到音频（ATA）两种生成范式，以及单声道/多声道音频的语义对齐问题。数据集通过设计未见生成模型、未见数据源等测试场景，揭示了现有检测系统在跨域泛化中的局限性，如W2V2+AASIST模型因预训练数据偏差导致环境声音识别性能下降26.59%。

常用场景

经典使用场景

EnvSDD数据集在环境声音深度伪造检测领域具有重要应用价值，其经典使用场景包括评估和比较不同音频伪造检测算法的性能。该数据集通过提供大规模的真实和伪造环境音频样本，为研究人员提供了丰富的实验材料。在学术研究中，EnvSDD常被用于测试检测模型在单声道和多声道音频上的表现，以及评估模型对未见过的生成模型和数据集的泛化能力。

解决学术问题

EnvSDD数据集解决了环境声音深度伪造检测领域中的多个关键学术问题。首先，它填补了现有环境声音伪造检测数据集规模小、音频类型有限的空白。其次，该数据集通过包含多种生成模型（如AudioLDM、AudioGen等）产生的伪造音频，为研究不同生成技术对检测算法的影响提供了可能。此外，EnvSDD还解决了跨域泛化评估的问题，其测试集设计包含多种未见条件，有助于推动更鲁棒的检测算法的开发。

衍生相关工作

EnvSDD数据集已经衍生出多个相关研究工作。基于该数据集，研究者提出了BEATs+AASIST等新型检测系统，这些系统通过结合预训练的音频基础模型，显著提升了检测性能。此外，该数据集还启发了对单声道与多声道音频伪造检测差异性的深入研究。在跨域泛化方面，EnvSDD促进了针对不同生成模型和数据集的适应性检测算法的开发，为后续更全面的音频伪造检测基准的建立奠定了基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集