five

EnvSDD

收藏
arXiv2025-08-06 更新2025-08-08 收录
下载链接:
https://envsdd.github.io/
下载链接
链接失效反馈
官方服务:
资源简介:
EnvSDD是一个为环境声音深度伪造检测(ESDD)设计的第一个大规模数据集,包含45.25小时的真声音和316.7小时的伪造声音。该数据集用于促进ESDD领域的研究,通过提供各种真实场景的音频样本和不同声音生成器生成的伪造音频,以帮助开发出能够识别未见过生成器的伪造音频的检测模型。

EnvSDD is the first large-scale dataset dedicated to environmental sound deepfake detection (ESDD). It contains 45.25 hours of authentic audio and 316.7 hours of deepfake audio. This dataset is developed to advance research in the ESDD field, by providing audio samples from various real-world scenarios and deepfake audios generated by different sound generators, so as to facilitate the development of detection models capable of identifying deepfake audios from unseen generators.
提供机构:
韩国科学技术院 (KAIST) 电气工程系, 澳大利亚墨尔本大学, 新加坡 Fortemedia, 中国西安邮电大学
创建时间:
2025-08-06
原始信息汇总

EnvSDD: Benchmarking Environmental Sound Deepfake Detection

数据集概述

  • 名称: EnvSDD
  • 领域: 环境声音深度伪造检测
  • 特点: 首个大规模环境声音深度伪造检测数据集
  • 数据量:
    • 真实音频: 45.25小时
    • 伪造音频: 316.74小时
  • 测试集特点: 包含多样化的条件以评估泛化能力,如未见过的生成模型和未见过的数据集

相关研究

  • 论文: 已被Interspeech 2025接受
  • 挑战赛: 基于EnvSDD,正在举办首届环境声音深度伪造检测挑战赛(ESDD 2026),与ICASSP 2026联合

数据集内容示例

数据集来源 文件名 描述
UrbanSound8K 35800-6-0-0.wav 枪声
DCASE 2023 Task7 Dev moving_motor_vehicle_0.wav 移动的机动车辆
TAU UAS 2019 Open Dev airport-barcelona-0-0-a_1.wav 机场繁忙的声音,包括公告、行李箱滚动和飞机起降的嗡嗡声
TUT SED 2016 a033_33.wav 不稳定的桌子导致盘子发出碰撞和摇晃的声音
TUT SED 2017 a009_1.wav 住宅区鸟鸣声与交通和发动机的嗡嗡声
Clotho 05687 morning birds ambience.wav 苍蝇飞过,鸟鸣声和人的呼吸声

生成模型

  • TTA by AudioGen
  • TTA by AudioLDM
  • TTA by AudioLDM 2
  • TTA by AudioLCM
  • TTA by TangFlux
  • ATA by AudioLDM
  • ATA by AudioLDM 2

性能

  • 提出的基于预训练音频基础模型的系统在EnvSDD上表现优于语音和歌唱领域的最先进系统

更新记录

  • 2025.07.29: 宣布启动ESDD 2026挑战赛
  • 2025.05.27: 网站最后更新
搜集汇总
数据集介绍
main_image_url
构建方式
EnvSDD数据集通过整合来自多个公开环境声音数据集(如UrbanSound8K、TAU UAS 2019等)的真实音频样本,并利用五种文本到音频(TTA)和两种音频到音频(ATA)生成模型合成深度伪造音频,构建了包含45.25小时真实音频和316.7小时伪造音频的大规模资源。所有音频统一重采样至16kHz并分割为4秒片段,确保了数据格式的标准化。数据划分遵循严格的生成器隔离原则,训练集与测试集采用不同生成模型,以模拟真实场景中检测未知生成器的挑战。
特点
该数据集的核心特点在于其覆盖了环境声音深度伪造检测(ESDD)领域的两类主流生成范式(TTA与ATA),并首次引入黑盒低资源场景的评估轨道。数据规模显著超越现有同类资源,且通过BEATs预训练模型融合验证了跨生成器泛化性能的瓶颈(EER仅降低0.3%-1.82%)。特别设计的1%黑盒训练数据比例,为研究极端数据稀缺下的检测鲁棒性提供了基准平台。
使用方法
使用者可通过官方提供的基线系统(AASIST与BEATs+AASIST)快速验证模型性能,采用等错误率(EER)作为核心评估指标。数据集支持两种研究模式:在已知生成范式(TTA/ATA)下测试模型对未见生成器的泛化能力(Track 1),或在完全未知生成方法且仅1%黑盒训练数据的极限条件下评估模型适应性(Track 2)。所有提交需遵循严格的公平性规则,包括禁止使用测试数据训练、强制开源代码等,确保研究可复现性。
背景与挑战
背景概述
EnvSDD数据集由KAIST、墨尔本大学等机构的研究团队于2026年提出,是首个面向环境声音深度伪造检测(ESDD)的大规模基准数据集。该数据集包含45.25小时真实环境声音和316.7小时伪造音频,覆盖文本到音频(TTA)和音频到音频(ATA)两种主流生成范式。其创新性在于揭示了检测模型在应对未见生成器时的性能显著下降现象,为声学场景理解领域提供了关键研究基础,相关成果发表于ICASSP等顶级会议,推动了环境声音反欺骗检测技术的发展。
当前挑战
EnvSDD面临双重技术挑战:在领域问题层面,环境声音的时空复杂性导致伪造痕迹难以捕捉,现有模型对未知生成器的泛化能力不足,基线系统EER最高达15.4%;在构建过程中,需平衡多场景真实声音采集(如UrbanSound8K、TAU UAS等7个开源数据集)与多样化伪造样本生成(涉及AudioLDM等7种生成模型),同时解决跨生成范式的特征对齐问题。低资源黑盒场景下仅1%训练数据的极端条件进一步增加了模型鲁棒性优化的难度。
常用场景
经典使用场景
EnvSDD数据集在环境声音深度伪造检测领域具有广泛的应用价值,尤其在模拟真实场景中的声音伪造检测方面表现突出。该数据集通过整合多种真实环境声音样本和由不同生成器合成的伪造声音,为研究人员提供了一个标准化的测试平台。其经典使用场景包括评估和优化深度伪造检测算法在未知生成器环境下的泛化能力,以及在低资源条件下的适应性表现。
解决学术问题
EnvSDD数据集解决了环境声音深度伪造检测领域中的多个关键学术问题。首先,它填补了现有数据集在规模和多样性上的不足,提供了大量真实和伪造声音样本。其次,通过引入未知生成器和黑盒测试场景,该数据集推动了检测模型在复杂和未知环境中的鲁棒性研究。此外,数据集的设计还促进了跨生成器泛化能力的探索,为相关领域的研究提供了重要参考。
衍生相关工作
EnvSDD数据集衍生了一系列经典研究工作,特别是在环境声音深度伪造检测算法的优化方面。基于该数据集,研究人员开发了多种先进的检测模型,如AASIST和BEATs+AASIST,这些模型在多个国际挑战赛中取得了显著成果。此外,数据集还促进了跨模态声音生成和检测技术的研究,为相关领域的进一步发展奠定了基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作