SceneFake

Name: SceneFake
Creator: 中国科学院自动化研究所
Published: 2024-04-04 17:58:35
License: 暂无描述

arXiv2024-04-04 更新2024-06-21 收录

下载链接：

https://zenodo.org/record/7663324#.YXKMuPYuUk

下载链接

链接失效反馈

官方服务：

资源简介：

SceneFake数据集是由中国科学院自动化研究所开发，专注于场景伪造音频检测。该数据集包含84,475条音频，通过使用语音增强技术仅改变真实语音的声学场景来生成伪造音频。数据集分为训练、开发、可见测试和不可见测试集，用于评估模型在检测未知场景伪造音频方面的性能。SceneFake数据集旨在解决音频伪造检测中的一个重要问题，即通过改变声学场景来伪造音频，这对于社会安全具有重大威胁。

The SceneFake dataset, developed by the Institute of Automation, Chinese Academy of Sciences, focuses on scene-forged audio detection. It contains 84,475 audio samples, where forged audios are generated by only modifying the acoustic scenes of genuine speech using speech enhancement techniques. The dataset is split into training, development, seen test, and unseen test sets, which are used to evaluate model performance in detecting unknown scene-forged audios. The SceneFake dataset aims to address a critical challenge in audio forgery detection: audio forgery achieved by altering acoustic scenes, which poses significant threats to social security.

提供机构：

中国科学院自动化研究所

创建时间：

2022-11-11

搜集汇总

数据集介绍

构建方式

在音频伪造检测领域，SceneFake数据集针对声学场景篡改这一新型攻击模式而构建。其构建过程基于ASVspoof 2019的逻辑访问数据集和DCASE 2022的声学场景数据，通过模拟真实带噪语音与场景篡改语音生成样本。具体而言，真实语音通过将纯净语音与随机选取的声学场景在六个不同信噪比下混合而成；伪造语音则采用语音增强技术去除原始场景后，再叠加另一随机场景，运用包括FullSubNet、WaveU-Net在内的多种增强模型，确保数据多样性与可复现性。

使用方法

该数据集主要用于声学场景伪造音频检测任务的研究与评估。研究者可利用其训练集开发检测模型，并通过开发集进行超参数优化。在测试阶段，可见测试集用于衡量模型在已知条件下的检测效能，而不可见测试集则用于评估模型对未知场景与增强技术的泛化性能。基准实验表明，传统伪造检测模型在该任务上面临显著挑战，尤其在不可见条件下性能下降明显，这为未来研究提供了明确的改进方向。

背景与挑战

背景概述

随着语音伪造技术的快速发展，音频伪造检测已成为语音安全领域的关键研究方向。现有数据集多聚焦于音色、韵律、语言内容或信道噪声的篡改，而忽略了声学场景被恶意替换这一新型伪造威胁。为填补这一空白，中国科学院自动化研究所等机构的研究团队于近年提出了SceneFake数据集，旨在推动声学场景伪造音频检测的研究。该数据集基于ASVspoof 2019的逻辑访问数据集和DCASE 2022的声学场景数据构建，通过语音增强技术篡改原始音频的声学场景，模拟了现实世界中场景伪造攻击。其核心研究问题在于如何有效检测声学场景被篡改的伪造音频，以应对智能穿戴设备、上下文感知服务等应用场景中可能出现的安全风险，对音频取证和语音安全领域具有重要的学术价值与实践意义。

当前挑战

SceneFake数据集致力于解决声学场景伪造音频检测这一新兴领域问题，其核心挑战在于现有伪造检测模型对场景篡改攻击的泛化能力不足。实验表明，即使在相似噪声环境下训练，ASVspoof 2019的基线模型也难以可靠检测场景伪造音频，在未见测试集上的等错误率显著上升。构建过程中的挑战主要体现在数据模拟与真实性的平衡：当前数据集通过混合纯净语音与场景噪声模拟生成，虽控制了信噪比和场景类型变量，但与真实环境录制的音频存在分布差异，如语言内容与场景的匹配度问题。此外，数据集中声学场景类型和语音增强技术的多样性仍有限，难以完全覆盖现实场景中复杂的篡改手段，这制约了检测模型在真实应用中的鲁棒性。

常用场景

经典使用场景

在音频伪造检测领域，SceneFake数据集主要用于评估和开发针对声学场景篡改的检测模型。该数据集通过语音增强技术模拟真实场景中的音频篡改行为，为研究者提供了一个标准化的测试平台。其经典使用场景包括训练和验证检测算法在已知和未知篡改攻击下的性能，特别是在不同信噪比条件下评估模型的鲁棒性。数据集的设计使得研究者能够系统分析声学场景篡改对音频完整性的影响，并推动检测技术的进步。

解决学术问题

SceneFake数据集解决了音频伪造检测中一个长期被忽视的学术问题：声学场景篡改的检测。传统数据集主要关注音色、韵律或语音内容的篡改，而该数据集首次系统性地模拟了通过语音增强技术替换音频声学场景的伪造类型。这填补了研究空白，使得学术界能够深入探索场景篡改对音频真实性的威胁，并开发相应的检测方法。其意义在于拓展了音频伪造检测的研究范畴，为音频取证和完整性验证提供了新的研究方向。

实际应用

在实际应用中，SceneFake数据集对智能穿戴设备、上下文感知服务和机器人导航系统等具有重要价值。这些系统依赖声学场景分类来理解用户环境，而场景篡改可能导致系统误判。例如，在紧急呼叫中心，犯罪现场定位系统若遭受声学场景篡改攻击，可能无法准确识别受害者位置。此外，该数据集还可用于音频取证领域，帮助司法机构验证录音证据的完整性，防范因场景篡改导致的证据失真问题。

数据集最近研究