TWINSHIFT

Name: TWINSHIFT
Creator: 韩国首尔，SK电信，韩国梨花女子大学
Published: 2025-10-27 16:06:07
License: 暂无描述

arXiv2025-10-27 更新2025-11-05 收录

下载链接：

https://zenodo.org/records/17242366

下载链接

链接失效反馈

官方服务：

资源简介：

TWINSHIFT是一个专门设计用于评估音频深度伪造检测系统鲁棒性的基准数据集。该数据集由六个不同的合成系统构建，每个系统都与不同的说话人集合配对，从而能够严格评估检测器在生成模型和说话人身份都发生变化时的泛化能力。数据集包含来自五个广泛使用的语料库的真实语音样本，以及由六个代表性文本到语音（TTS）和语音转换系统合成的伪造语音样本。TWINSHIFT旨在帮助研究人员开发和评估能够在真实世界环境中有效检测音频深度伪造的系统。

TWINSHIFT is a benchmark dataset specifically designed to evaluate the robustness of audio deepfake detection systems. The dataset is constructed from six distinct synthesis systems, each paired with a different set of speakers, enabling rigorous assessment of the detector's generalization ability when both the generative model and speaker identity undergo changes. The dataset contains genuine speech samples from five widely used corpora, as well as forged speech samples synthesized by six representative text-to-speech (TTS) and voice conversion systems. TWINSHIFT is intended to assist researchers in developing and evaluating systems that can effectively detect audio deepfakes in real-world scenarios.

提供机构：

韩国首尔，SK电信，韩国梨花女子大学

创建时间：

2025-10-27

搜集汇总

数据集介绍

构建方式

在音频深度伪造检测领域，构建具有严格分布外泛化能力的基准数据集至关重要。TWINSHIFT采用六种异构语音合成系统构建数据集，包括MeloTTS、ParlerTTS等文本转语音模型和ElevenLabs等语音转换系统，每种系统均与独立的说话人集合配对。通过从ASVspoof'19 LA、In-the-Wild等五个权威语料库中提取真实语音样本，并确保各环境间说话人身份完全隔离，构建了六个互不相交的评估环境。数据集遵循8:2的训练-测试划分比例，并保持1:9的真实-伪造样本类别平衡，实现了对合成模型和说话人身份双重严格不可见条件的系统性评估。

使用方法

使用该数据集时，研究者可选择在单一环境内训练检测模型并评估其域内性能，更重要的是通过跨环境迁移实验系统评估泛化能力。典型流程包括在某个环境（如Mai）上训练Se-Res2Net、RawNet2等四种代表性检测器，随后在所有六个环境中测试其表现。评估指标采用等错误率，重点关注对角线（域内）与非对角线（跨域）结果的显著差异。这种使用范式能够有效揭示检测器对特定合成伪影的过拟合现象，为开发真正具有泛化能力的音频深度伪造检测系统提供科学依据。

背景与挑战

背景概述

随着神经语音合成技术的迅猛发展，音频深度伪造技术既带来了创新应用，也引发了严重的安全隐患。TWINSHIFT数据集由梨花女子大学与SK Telecom于2025年联合创建，旨在应对音频深度伪造检测领域的关键挑战——模型在未知合成方法与说话人条件下的泛化能力不足。该数据集通过整合六种异构语音合成系统，并严格分离训练与测试集中的说话人身份，构建了首个专注于双重分布外泛化评估的基准，为防御现实世界中快速演化的语音伪造攻击提供了科学基础。

当前挑战

该数据集致力于解决音频深度伪造检测中模型泛化性不足的核心问题，具体表现为对未知合成器与说话人的检测性能急剧下降。构建过程中面临双重挑战：其一需确保合成系统覆盖多样化的生成范式，包括层级潜在因子建模与流匹配传输等架构；其二必须实现跨环境说话人身份的严格隔离，避免数据泄露导致评估偏差。实验表明，当合成器与说话人同时未知时，检测器的等错误率最高提升至0.548，揭示了现有方法在复杂分布偏移下的脆弱性。

常用场景

经典使用场景

在音频深度伪造检测领域，TWINSHIFT数据集通过构建严格未见条件下的评估框架，成为衡量检测模型泛化能力的核心工具。该数据集整合六种异构语音合成系统与互斥说话人集合，模拟真实场景中合成方法与说话者身份同时变化的双重挑战，为研究者提供系统化评估跨生成器与跨说话人泛化性能的标准化环境。

解决学术问题

该数据集有效揭示了当前音频伪造检测系统对特定合成器伪影的过拟合问题，通过双轴分离实验证明合成器差异是性能衰退的主因。其严格的环境划分机制突破了传统混合数据集的评估局限性，为研究分布外泛化、模型鲁棒性等核心学术问题提供了可量化的实验基础，推动了检测算法从静态评估向动态适应范式的转变。

实际应用

在金融反欺诈与内容安全审核等实际场景中，TWINSHIFT的评估框架可直接用于测试检测系统对新型合成技术的适应性。其构建的六种异构环境对应不同攻击向量，能够预警系统在遭遇未知声纹克隆工具时的失效风险，为部署前压力测试提供关键依据，助力构建应对快速进化伪造威胁的防御体系。

数据集最近研究