PartialEdit

Name: PartialEdit
Creator: 罗切斯特大学音频信息研究实验室，捷克布尔诺科技大学Speech@FIT
Published: 2025-06-03 22:52:16
License: 暂无描述

arXiv2025-06-03 更新2025-06-06 收录

下载链接：

https://yzyouzhang.com/PartialEdit/index.html

下载链接

链接失效反馈

官方服务：

资源简介：

PartialEdit数据集是一个深度伪造语音数据集，由罗切斯特大学音频信息研究实验室和捷克布尔诺科技大学Speech@FIT创建。该数据集包含43,358个经过深度伪造的部分语音样本，由多种现代语音编辑模型生成。数据集的创建过程分为文本编辑、神经语音编辑和后处理三个步骤。PartialEdit数据集旨在解决在神经语音编辑时代检测和定位部分深度伪造语音的挑战。

The PartialEdit dataset is a deepfake speech dataset created by the Audio Information Research Lab of the University of Rochester and Speech@FIT at Brno University of Technology, Czech Republic. This dataset contains 43,358 partially deepfake speech samples generated by a variety of modern speech editing models. The construction of the dataset consists of three sequential steps: text editing, neural speech editing, and post-processing. The PartialEdit dataset aims to address the challenge of detecting and localizing partially deepfake speech in the era of neural speech editing.

提供机构：

罗切斯特大学音频信息研究实验室，捷克布尔诺科技大学Speech@FIT

创建时间：

2025-06-03

搜集汇总

数据集介绍

构建方式

PartialEdit数据集的构建采用了先进的神经语音编辑技术，以VCTK数据集作为真实语音源，通过三步流程生成高质量的部分编辑深度伪造语音。首先，利用GPT-4o-mini对原始文本进行自然修改；其次，通过神经语音编辑模型（如VoiceCraft、SSR-Speech等）对指定编辑区域的语音进行合成；最后，通过后处理步骤将编辑部分无缝拼接回原始音频，确保未编辑部分保持原貌。

特点

PartialEdit数据集的特点在于其专注于部分编辑的深度伪造语音，编辑区域通过先进的神经语音编辑技术生成，而未编辑部分则保持原始语音的真实性。数据集包含多种编辑模型生成的样本，如VoiceCraft、SSR-Speech等，且通过后处理步骤减少了神经编解码器引入的伪影，使得编辑后的语音在感知上接近真实语音。此外，数据集还提供了PartialEdit-Codec版本，用于研究编解码器处理对检测的影响。

使用方法

PartialEdit数据集可用于语音深度伪造检测和定位研究。在检测任务中，研究者可以训练模型区分完全真实和部分编辑的语音；在定位任务中，模型需识别语音中被编辑的具体区域。数据集提供了训练、验证和测试集，支持跨模型和跨任务的性能评估。此外，通过结合PartialEdit和传统深度伪造数据集（如PartialSpoof），可以开发更具泛化能力的反欺骗系统。

背景与挑战

背景概述

PartialEdit数据集由罗切斯特大学音频信息研究实验室和布尔诺理工大学Speech@FIT团队于2025年联合发布，旨在应对神经语音编辑技术带来的新型深度伪造威胁。该数据集基于VCTK语音库，采用VoiceCraft、SSR-Speech等前沿神经编解码器模型进行局部语音编辑，包含43,358条经过文本修改和神经编辑的语音样本。作为首个针对局部编辑深度伪造的专项数据集，PartialEdit填补了传统全句合成检测与局部篡改检测之间的技术空白，为语音反欺骗领域提供了关键研究基准。

当前挑战

该数据集面临双重技术挑战：在领域问题层面，神经语音编辑产生的局部伪造具有更高隐蔽性，现有基于PartialSpoof数据集的检测模型对其识别错误率高达23.72%；在构建层面，需解决编解码器伪影与真实语音的无缝融合问题，通过创新的切割-粘贴后处理技术保持未编辑区域的真实性。实验表明，不同编辑算法（如VoiceCraft与Audiobox）产生的伪造特征差异显著，模型跨算法泛化能力不足，帧级定位错误率波动达9.51%-22.35%。

常用场景

经典使用场景

PartialEdit数据集在神经语音编辑技术快速发展的背景下，为研究者提供了一个专注于检测部分编辑深度伪造语音的标准测试平台。该数据集通过整合多种先进的语音编辑模型（如VoiceCraft、SSR-Speech等），模拟了真实场景中语音内容被局部篡改的情况，为开发鲁棒的检测算法提供了丰富的实验数据。

实际应用

在金融声纹认证、司法语音证据鉴定等安全关键领域，PartialEdit数据集能够帮助开发针对高级语音篡改手段的防御系统。例如，其包含的cut-and-paste后处理样本模拟了攻击者隐藏编辑痕迹的常见手法，使得基于该数据集训练的检测模型在实际应用中能更准确地识别经过精心伪装的语音篡改行为。

衍生相关工作

该数据集推动了多项相关研究的发展，包括基于XLSR-SLS的检测框架优化和BAM定位模型的改进。在Speech Arena 2025等国际评测中，采用PartialEdit进行算法验证的工作显著提升了跨模型泛化能力。后续研究如CodecFake-Omni等大型数据集的建设也借鉴了其编解码器伪影分析的方法论。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集