MLAAD (Source Tracing Protocols) dataset

github2024-12-07 更新2024-12-10 收录

下载链接：

https://github.com/piotrkawa/audio-deepfake-source-tracing

下载链接

链接失效反馈

官方服务：

资源简介：

MLAAD数据集用于深度伪造源追踪任务，是Interspeech 2025特殊会议的一部分。该数据集包含用于训练和评估源追踪模型的资源。

The MLAAD dataset is designed for deepfake source tracing tasks and forms part of the special session of Interspeech 2025. This dataset contains resources for training and evaluating source tracing models.

创建时间：

2024-12-06

原始信息汇总

数据集概述

数据集名称

MLAAD (Source Tracing Protocols) dataset

数据集下载

下载命令：python scripts/download_resources.py
默认数据存储路径：项目根目录下的data目录

数据集用途

用于训练和评估DeepFake源追踪模型的基准数据集。

数据增强

所需数据集：MUSAN 和 RIRS_NOISES
数据增强步骤：
1. 读取原始MLAAD数据，使用随机噪声和RIR进行增强。
2. 提取wav2vec2-base特征。
3. 输出路径：exp/preprocess_wav2vec2-base/

模型训练

使用增强特征训练AASIST模型，训练30个epoch。
分类结果存储路径：exp/label_assignment.txt

评估指标

计算已知类别的分类准确率。
运行OOD检测器并评估其性能。

许可证

本数据集遵循CC BY-NC 4.0 License。
部分代码来自REFD repository，未提供许可证，需遵循版权法。

搜集汇总

数据集介绍

构建方式

MLAAD (Source Tracing Protocols) 数据集的构建基于深度伪造语音源追踪任务的需求，通过整合来自Resemble AI和AI4Trust项目的数据资源，采用先进的语音处理技术，如Wav2Vec2.0和GE2E损失函数，进行特征提取和数据增强。具体步骤包括原始数据的读取、随机噪声和RIR的增强处理，以及wav2vec2-base特征的提取，最终生成用于训练AASIST模型的数据集。

特点

MLAAD数据集的显著特点在于其针对深度伪造语音源追踪任务的专门设计，结合了多种先进的语音处理技术，如Wav2Vec2.0和GE2E损失函数，确保了数据的高质量和多样性。此外，数据集还包括了用于数据增强的MUSAN和RIRS_NOISES数据集，增强了模型的泛化能力和对未见数据的检测能力。

使用方法

使用MLAAD数据集时，首先需通过提供的脚本下载数据集并安装相关依赖。接着，用户可以通过运行train_ge2e.py或train_refd.py脚本进行模型训练，利用预处理后的数据进行特征提取和模型训练。训练完成后，可使用get_classification_metrics.py脚本评估模型在已知类别上的表现，并通过ood_detector.py脚本进行OOD检测，评估模型对未知类别的识别能力。

背景与挑战

背景概述

MLAAD (Source Tracing Protocols) 数据集是为INTERSPEECH 2025特别会议‘源追踪：合成或操纵语音的起源’而创建的，旨在支持深度伪造源追踪任务的研究。该数据集由Piotr Kawa、Adriana Stan和Nicolas M. Müller等研究人员开发，得到了Resemble AI和AI4Trust项目的支持。其核心研究问题在于通过语音数据识别合成或操纵语音的来源，这对于防范语音深度伪造技术具有重要意义。该数据集的发布为语音处理领域的研究提供了新的基准，推动了源追踪技术的发展。

当前挑战

MLAAD数据集在构建过程中面临多项挑战。首先，数据集需要涵盖多种合成和操纵语音的来源，以确保模型的泛化能力。其次，数据增强技术的应用，如使用MUSAN和RIRS_NOISES数据集进行噪声和混响增强，增加了数据处理的复杂性。此外，评估指标的缺失（‘Coming soon’）使得数据集的性能评估存在不确定性。最后，OOD（Out-of-Distribution）检测方法的应用，旨在提高对未知深度伪造算法的识别能力，但当前的基线结果显示其EER为63%，F1-score为0.31，表明该方法仍有较大的改进空间。

常用场景

经典使用场景

MLAAD (Source Tracing Protocols) 数据集在深度伪造语音源追踪任务中扮演着核心角色。该数据集被广泛用于训练和评估基于Wav2Vec2.0编码器的特征提取器，特别是结合GE2E损失函数进行模型训练。此外，数据集还支持REFD基线模型的实现，通过数据增强和OOD检测方法提升对未见深度伪造算法的分类能力。

解决学术问题

MLAAD数据集解决了深度伪造语音检测中的关键学术问题，即如何准确追踪和识别合成或操纵语音的源头。通过提供丰富的真实和伪造语音样本，该数据集为研究人员提供了必要的资源，以开发和验证新的检测算法，从而提升对深度伪造技术的防御能力。

衍生相关工作

基于MLAAD数据集，已衍生出多项经典工作，如Xie等人的“Generalized Source Tracing”研究，通过引入真实强调和伪造分散策略，显著提升了深度伪造算法的检测性能。此外，REFD基线模型及其改进版本，通过数据增强和OOD检测技术，进一步推动了该领域的研究进展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集