STOPA
收藏arXiv2025-09-29 更新2025-10-01 收录
下载链接:
https://github.com/Manasi2001/Zero-Shot-Open-Set-Speech-DeepfakeSource-Tracing
下载链接
链接失效反馈官方服务:
资源简介:
STOPA数据集是一个公开的语音深度伪造源追踪数据库,包含699,000个来自13个攻击系统的语音样本。该数据集用于训练和评估源追踪模型,旨在解决语音深度伪造的源追踪问题。数据集由13种攻击系统的语音样本组成,包括8种声学模型和6种声码器模型。每个语音样本都被标记了攻击ID、声学模型ID和声码器模型ID,这使得多级源追踪成为可能。
提供机构:
芬兰东部大学
创建时间:
2025-09-29
搜集汇总
数据集介绍

构建方式
在语音伪造检测领域,STOPA数据集的构建采用了系统化设计原则,通过组合8种声学模型和6种声码器模型生成了69.9万条伪造语音样本。数据划分遵循严格的开放集协议,将13种攻击类型划分为互不相交的训练集、指纹集和测试集,其中训练集仅包含3种攻击类型,指纹集和测试集则涵盖其余10种攻击类型。这种设计确保了模型在训练阶段完全未接触测试阶段的攻击类型,为评估零样本泛化能力提供了理想基准。
特点
该数据集最显著的特点是支持多层级溯源分析,每条语音均标注了攻击标识、声学模型标识和声码器标识三个维度的信息。其开放集特性体现在测试阶段包含训练阶段未见过的攻击类型,模拟了现实世界中不断涌现新型伪造技术的场景。数据集的语音样本覆盖48位发音人,且所有数据分区均保持发音人互斥,这种设计有效避免了说话人身份特征对攻击源判别造成的干扰,为研究纯净的伪造特征提供了保障。
使用方法
使用该数据集时需遵循四阶段流程:首先利用训练集通过加性角间隔损失函数训练攻击嵌入提取器;接着从指纹集抽取多条语音生成攻击指纹嵌入;然后提取测试语音的嵌入表示;最后通过后端评分系统进行相似度计算。研究支持零样本和少样本两种模式,零样本直接计算余弦相似度,少样本则可在指纹嵌入上训练MLP或孪生网络。评估时需分别报告分布内和分布外攻击的等错误率,以全面衡量模型在封闭集和开放集场景下的性能。
背景与挑战
背景概述
随着神经语音合成与语音转换技术的飞速发展,高度逼真的伪造语音已能轻易欺骗人类听觉与自动化系统,催生了语音伪造检测领域的深入研究。然而,单纯检测语音真伪已不足以应对实际需求,司法取证与系统安全亟需追溯伪造语音的生成源头。为此,东芬兰大学研究团队于2025年提出了STOPA数据集,通过系统化组合8种声学模型与6种声码器模型,构建包含69.9万条标注样本的多层级溯源数据库。该数据集在Interspeech 2025专题会议中首次亮相,其创新性评估协议将说话人验证中的零样本学习机制引入开放集场景,为深度伪造语音溯源建立了标准化基准。
当前挑战
在解决伪造语音溯源这一核心问题时,STOPA数据集面临双重挑战:其一是技术层面需应对无限扩展的生成方法空间,新型伪造攻击的持续涌现导致传统封闭集分类方法失效,迫使系统在开放集环境下实现未知攻击的拒绝与已知攻击的精准识别;其二是构建过程中需克服数据分布的复杂性,通过严格划分训练集与评估集的攻击类型确保零样本泛化能力,同时整合多源数据时需维持说话人身份、文本内容等变量的独立性,这对嵌入表示的质量与后端评分策略的鲁棒性提出了极高要求。
常用场景
解决学术问题
STOPA数据集有效解决了语音伪造领域源追踪的核心学术难题。针对生成式方法快速演进导致的攻击空间无限扩展问题,该数据集提供了系统化的评估框架,使研究者能够量化模型对未知攻击类型的识别能力。通过引入说话人验证领域的先进理念,数据集推动了零样本学习在语音伪造检测中的应用,为开发具有强泛化能力的源追踪系统奠定了实验基础,显著提升了该领域研究的可复现性与可比性。
衍生相关工作
基于STOPA数据集衍生的经典研究呈现出多元化的技术路线。部分工作聚焦于自监督嵌入表示学习,通过改进前端特征提取器增强攻击源判别能力;另一些研究则探索深度度量学习框架,利用多类别N对损失函数优化嵌入空间分布。值得关注的是,变分信息瓶颈方法被引入以提升模型对未知攻击的鲁棒性,而持续学习策略则致力于解决攻击类型动态增加的挑战。这些衍生工作共同推动了开放集源追踪技术体系的完善与发展。
以上内容由遇见数据集搜集并总结生成



