RFP数据集

Name: RFP数据集
Creator: 卡迪夫大学计算机科学与信息学院
Published: 2024-04-27 07:00:56
License: 暂无描述

arXiv2024-04-27 更新2024-06-21 收录

下载链接：

https://zenodo.org/records/10202142

下载链接

链接失效反馈

官方服务：

资源简介：

RFP数据集是由卡迪夫大学计算机科学与信息学院创建的一个包含真实、伪造和部分伪造音频的数据集，旨在帮助开发和评估伪造音频检测模型。该数据集包含五种不同的音频类型：部分伪造（PF）、带噪声的音频、语音转换（VC）、文本到语音（TTS）和真实音频。数据集通过结合多种音频源和技术生成，包括使用YouTube-8m等开放源项目获取真实音频，以及采用最新的TTS和VC技术生成伪造音频。此外，数据集还包括了127,862条来自354名不同年龄和地区的说话者的音频，用于评估检测模型的性能。RFP数据集的应用领域包括伪造音频检测、重放攻击检测和自动说话人验证系统等。

The RFP Dataset was developed by the School of Computer Science and Informatics at Cardiff University. It is a curated collection of genuine, forged, and partially forged audio samples, designed to support the development and benchmarking of forged audio detection models. The dataset comprises five distinct audio types: Partially Forged (PF), Noisy Audio, Voice Conversion (VC), Text-to-Speech (TTS), and Genuine Audio. It is constructed by integrating diverse audio sources and generation technologies: genuine audio is sourced from open-source projects such as YouTube-8m, while forged audio samples are generated using cutting-edge TTS and VC techniques. Furthermore, the dataset includes 127,862 audio clips from 354 speakers across various age groups and geographic regions, which serves as evaluation data for assessing the performance of audio detection models. Application domains of the RFP Dataset cover forged audio detection, replay attack detection, automatic speaker verification systems, and other related fields.

提供机构：

卡迪夫大学计算机科学与信息学院

创建时间：

2024-04-27

搜集汇总

数据集介绍

构建方式

RFP数据集的构建旨在填补现有合成语音数据集的空白，特别是针对部分伪造（Partial Fake, PF）音频的检测需求。该数据集包含了五种不同类型的音频：真实音频、文本转语音（TTS）、语音转换（VC）、带噪声的音频以及部分伪造音频。真实音频主要来源于YouTube-8m等开放数据集，TTS音频通过多种先进的TTS服务生成，VC音频则使用开源工具进行转换。部分伪造音频通过将真实音频与伪造音频（如TTS或VC）进行拼接生成，涵盖了多种组合方式。此外，噪声音频通过添加不同强度的背景噪声来模拟真实环境。

特点

RFP数据集的显著特点在于其多样性和复杂性。首先，数据集包含了五种不同类型的音频，涵盖了从完全真实到完全伪造以及部分伪造的多种情况，能够有效评估检测模型的鲁棒性。其次，数据集中的音频文件来自不同性别、年龄和地区的说话者，确保了数据的广泛代表性。此外，数据集还包含了不同强度的背景噪声，进一步增加了检测的难度。最后，部分伪造音频的生成方式多样，能够模拟真实场景中可能出现的各种伪造情况。

使用方法

RFP数据集可用于训练和评估多种合成语音检测模型。用户可以根据需求选择原始版本或经过处理的归一化版本。原始版本保留了音频文件的原始状态，适用于需要进行自定义处理的场景，如TTS语音训练或重放攻击研究。归一化版本则经过预处理，适合直接用于机器学习模型的训练和测试。数据集被划分为训练集、验证集和测试集，确保模型在不同数据上的泛化能力。通过使用该数据集，研究人员可以开发和优化能够有效检测部分伪造音频的检测模型。

背景与挑战

背景概述

随着深度学习技术的快速发展，合成语音的质量得到了显著提升，但也为攻击者提供了新的工具，如利用合成语音进行钓鱼攻击等。为了应对这一挑战，众多公开数据集被创建以支持有效的检测模型开发。然而，现有的数据集主要集中在完全伪造的音频上，忽略了部分伪造音频（PF）的检测需求。为此，Cardiff大学的Abdulazeez AlAli和George Theodorakopoulos于2023年创建了RFP数据集，该数据集包含了五种不同类型的音频：部分伪造（PF）、带噪声的音频、语音转换（VC）、文本到语音（TTS）和真实音频。RFP数据集的创建旨在填补现有数据集的空白，特别是针对部分伪造音频的检测需求，并通过评估多种检测模型，揭示了现有模型在检测PF音频时存在较高的等错误率（EER）。

当前挑战

RFP数据集的构建面临多重挑战。首先，部分伪造音频的检测是一个新兴且复杂的领域，现有的检测模型在处理PF音频时表现不佳，尤其是在面对不同类型的伪造音频时，模型的鲁棒性不足。其次，数据集的构建过程中，研究人员需要生成高质量的TTS和VC音频，并确保这些音频与真实音频的对比具有代表性。此外，添加噪声和生成部分伪造音频的过程也增加了数据集的复杂性。最后，如何有效地评估检测模型的性能，特别是在面对未见过的伪造音频时，仍然是一个亟待解决的问题。这些挑战共同推动了RFP数据集的开发，并为未来的研究提供了新的方向。

常用场景

经典使用场景

RFP数据集的经典使用场景主要集中在深度伪造音频检测领域，尤其是针对部分伪造音频（Partial Fake, PF）的检测。该数据集包含了五种不同类型的音频：真实音频、文本转语音（TTS）、语音转换（VC）、带噪声的音频以及部分伪造音频。通过这些多样化的音频类型，研究人员可以训练和评估检测模型，以识别不同类型的伪造音频，特别是那些在真实音频中插入伪造片段的部分伪造音频。

解决学术问题

RFP数据集解决了现有伪造音频检测数据集的一个关键问题，即大多数数据集仅包含完全伪造的音频，而忽略了部分伪造音频的情况。部分伪造音频是指在真实音频中插入伪造片段，这种伪造方式更具隐蔽性，容易导致现有检测模型失效。通过引入部分伪造音频，RFP数据集为研究人员提供了一个更全面的检测基准，帮助开发能够应对复杂伪造场景的检测模型，从而提高伪造音频检测的准确性和鲁棒性。

衍生相关工作

RFP数据集的发布激发了大量相关研究工作，特别是在深度伪造音频检测领域。许多研究者基于该数据集开发了新的检测模型，如RawGAT-ST和AASIST等，这些模型在部分伪造音频检测方面表现出色。此外，RFP数据集还推动了对语音转换（VC）和文本转语音（TTS）技术的进一步研究，特别是在零样本语音转换和多语言语音生成方面。这些研究不仅提升了伪造音频检测的性能，还为语音合成技术的合法应用提供了新的思路。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集