EnvSDD

github2025-05-27 更新2025-06-05 收录

下载链接：

https://github.com/apple-yinhan/EnvSDD

下载链接

链接失效反馈

官方服务：

资源简介：

EnvSDD是第一个大规模的环境声音深度伪造检测数据集，包含45.25小时的真实音频和316.74小时的伪造音频。测试集包括多样化的条件，以评估泛化能力，如未见过的生成模型和未见过的数据集。

EnvSDD is the first large-scale environmental sound deepfake detection dataset, containing 45.25 hours of real audio and 316.74 hours of fake audio. The test set includes diverse conditions to evaluate generalization capabilities, such as unseen generative models and unseen datasets.

创建时间：

2025-05-20

原始信息汇总

EnvSDD数据集概述

数据集简介

名称：EnvSDD (Environmental Sound Deepfake Detection)
目的：用于环境声音深度伪造检测的首个大规模数据集
规模：
- 真实音频：45.25小时
- 伪造音频：316.74小时
特点：
- 包含多样化的测试条件以评估泛化能力
- 涵盖未见过的生成模型和未见过的数据集

数据集结构

EnvSDD-Development：https://zenodo.org/records/15220951
EnvSDD-Test：https://zenodo.org/records/15241138
EnvSDD-Remain：即将发布

数据集可用性

部分数据集暂不公开（用于竞赛公平性）
竞赛结束后将全面公开
研究用途可联系：yinhan@mail.nwpu.edu.cn

模型支持

支持模型：
- aasist
- w2v2_aasist
- beats_aasist
预训练模型：
- wav2vec XLS-R 300M：https://github.com/facebookresearch/fairseq/blob/main/examples/wav2vec/xlsr/README.md
- BEATs：https://huggingface.co/nsivaku/nithin_checkpoints/tree/main

性能指标

系统	TTA (%)	ATA (%)
AASIST	0.80	0.19
W2V2-AASIST	0.27	0.25
BEATs-AASIST	0.09	0.06

引用

bibtex @article{envsdd, title={{EnvSDD}: Benchmarking Environmental Sound Deepfake Detection}, author={Yin, Han and Xiao, Yang and Das, Rohan Kumar and Bai, Jisheng and Liu, Haohe and Wang, Wenwu and Plumbley, Mark D}, booktitle={Interspeech}, year={2025} }

搜集汇总

数据集介绍

构建方式

EnvSDD数据集作为环境声音深度伪造检测领域的首个大规模精选数据集，其构建过程体现了严谨的学术态度。研究团队通过整合真实音频样本与合成音频样本，构建了总时长361.99小时的音频库，其中真实音频占45.25小时，伪造音频达316.74小时。数据集特别设计了包含未见生成模型和未见数据集的测试集，以评估检测系统的泛化能力。开发过程中采用了预训练音频基础模型，确保数据质量与多样性。

特点

该数据集最显著的特征在于其规模性和多样性。作为环境声音领域的专业数据集，它突破了传统语音或歌声伪造检测数据集的局限，专门针对真实世界声音的特性进行优化。测试集包含多种复杂场景，能有效检验检测系统在未知条件下的表现。数据集采用分阶段发布策略，当前提供开发集和测试集下载，剩余部分将随竞赛结束逐步公开，体现了数据管理的规范性。

使用方法

使用EnvSDD数据集需要遵循标准化流程。研究人员需先配置Python环境并安装指定依赖库，通过运行generate_json_dev.py生成开发所需的JSON文件。训练阶段支持三种模型架构，包括aasist、w2v2_aasist和beats_aasist，用户可通过调整main.py中的参数进行模型优化。测试阶段需准备对应的JSON文件，并利用预训练模型进行性能评估。数据集官网提供详细的性能指标参考，便于研究者横向比较不同系统的表现。

背景与挑战

背景概述

EnvSDD数据集由西北工业大学等研究团队于2025年推出，是首个针对环境声音深度伪造检测任务构建的大规模基准数据集。随着音频生成系统技术的飞速发展，高度逼真的环境音效在丰富多媒体内容的同时，也带来了潜在的安全隐患。尽管语音和歌唱领域的深度伪造检测研究已取得显著进展，但环境声音因其复杂的声学特性和多样化的场景特征，使得传统检测方法面临严峻挑战。该数据集包含45.25小时真实音频和316.74小时伪造音频，通过纳入未见过生成模型和数据集等测试条件，为评估检测系统的泛化能力提供了科学基准。EnvSDD的建立填补了环境声音深度伪造检测领域数据资源的空白，对促进音频安全研究具有重要意义。

当前挑战

环境声音深度伪造检测面临双重技术挑战：在领域问题层面，环境声音具有非平稳性、多源混合等复杂声学特征，使得基于语音设计的检测模型难以有效捕捉伪造痕迹；同时，伪造技术的快速演进导致生成音频的伪影特征不断变化，要求检测系统具备持续适应能力。在数据集构建层面，需要解决真实环境声音样本采集难度大、伪造样本生成成本高的问题，确保数据覆盖各类声学场景；此外，为保持评估的严谨性，需精心设计跨模型、跨数据集的测试方案，这对数据集的规模平衡性和质量管控提出了极高要求。

常用场景

经典使用场景

EnvSDD数据集在环境声音深度伪造检测领域具有重要应用价值。该数据集通过提供大量真实与伪造音频样本，为研究人员构建和优化检测模型提供了丰富素材。其测试集涵盖多种生成模型和数据集，能够全面评估检测系统的泛化能力。在音频安全领域，EnvSDD已成为验证新型检测算法性能的基准平台。

实际应用

在实际应用层面，EnvSDD数据集支撑的检测技术可广泛应用于多媒体内容审核、数字取证等领域。随着AI生成音频技术的普及，该数据集有助于开发可靠的伪造识别系统，保护数字音频内容的真实性。在新闻媒体、司法鉴定等对音频真实性要求严格的场景中，基于EnvSDD训练的模型能够有效识别伪造的环境声效，维护信息可信度。

衍生相关工作

围绕EnvSDD数据集已产生多项创新研究，包括基于预训练音频基础模型的检测系统开发。研究者们通过结合wav2vec XLS-R和BEATs等先进表征学习技术，提出了AASIST、W2V2-AASIST等检测架构。这些工作不仅提升了环境声音伪造检测的准确率，也为跨域音频安全研究提供了方法论参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集