Speaker Characteristics DeepFake (SCDF)

Name: Speaker Characteristics DeepFake (SCDF)
Creator: 布拉格工业大学信息学院
Published: 2025-08-11 20:58:37
License: 暂无描述

arXiv2025-08-11 更新2025-08-13 收录

下载链接：

https://arxiv.org/abs/2508.07944

下载链接

链接失效反馈

官方服务：

资源简介：

SCDF数据集是一个包含超过237,000个话语的丰富注释资源，用于系统地评估人口统计偏差在深度伪造语音检测中的影响。该数据集包含平衡的男性和女性演讲者的代表性，跨越五种语言和广泛的年龄范围。我们评估了几个最先进的检测器，并表明演讲者特征显著影响检测性能，揭示了性别、语言、年龄和合成器类型之间的差异。这些发现强调了需要开发具有偏差意识的检测系统，并为建立非歧视性的深度伪造检测系统奠定了基础。

The SCDF dataset is a richly annotated resource containing over 237,000 utterances, intended to systematically evaluate the impact of demographic biases on deepfake speech detection. This dataset features a balanced representation of male and female speakers, spanning five languages and a wide age range. We evaluated several state-of-the-art detectors and demonstrated that speaker characteristics significantly impact detection performance, revealing disparities across gender, language, age, and synthesizer types. These findings highlight the critical need for developing bias-aware detection systems and lay a solid foundation for building non-discriminatory deepfake speech detection systems.

提供机构：

布拉格工业大学信息学院

创建时间：

2025-08-11

搜集汇总

数据集介绍

构建方式

Speaker Characteristics DeepFake (SCDF)数据集是基于VoxPopuli语音语料库构建的，该语料库包含了来自欧洲议会活动记录的广泛且多样化的真实语音数据。数据集通过手动研究和验证公开可用的在线资源，补充了原始语料库中未包含的元数据，如说话者的性别、年龄、语言等。SCDF数据集包含了超过237,000条语音记录，涵盖了五种语言（捷克语、法语、英语、德语、西班牙语），并平衡了男性和女性说话者的比例。此外，数据集还使用了四种先进的语音合成器（XTTSv2、F5-TTS、Open Voice v2、DDDM-VC）生成深度伪造语音，确保了数据的高质量和多样性。

特点

SCDF数据集的主要特点在于其丰富的说话者特征元数据，包括性别、年龄、语言等，为深度伪造语音检测中的偏见分析提供了系统化的评估基础。数据集涵盖了广泛的年龄范围和多种语言，确保了样本的多样性和代表性。此外，SCDF还包含了由不同合成器生成的深度伪造语音，使得研究者能够评估不同合成技术对检测性能的影响。数据集的平衡设计和详细注释使其成为研究深度伪造语音检测中公平性和偏见问题的理想资源。

使用方法

SCDF数据集的使用方法主要包括对深度伪造语音检测器的性能评估和偏见分析。研究者可以利用数据集中的元数据，对不同性别、年龄和语言背景的说话者进行分组分析，以评估检测器在不同人群中的表现差异。此外，数据集还可用于训练和优化检测器，以提高其在多样化语音数据上的鲁棒性和公平性。通过使用SCDF数据集，研究者可以系统地识别和解决深度伪造语音检测中的偏见问题，从而开发出更加公平和可靠的检测系统。

背景与挑战

背景概述

Speaker Characteristics DeepFake (SCDF) 数据集由捷克布尔诺理工大学的研究团队于2025年推出，旨在填补语音深度伪造检测领域在偏见与公平性研究方面的空白。该数据集基于欧洲议会公开演讲构建，包含5种语言、50位说话人超过23.7万条语音样本，均衡覆盖性别、年龄等人口统计学特征，并整合了XTTSv2等4种前沿语音合成器的生成结果。作为首个系统标注说话人特征的深度伪造语音资源，SCDF为检测算法的公平性评估提供了重要基准，其多维度元数据设计直接响应了欧盟《人工智能法案》对高风险AI系统透明性的监管要求。

当前挑战

SCDF数据集主要应对两大核心挑战：在领域问题层面，现有深度伪造检测器存在显著的性别（男性检测错误率高于女性7.5%）、语言（德语样本检测难度突出）和年龄（70岁以上群体EER达20.27%）等维度性能差异，暴露出算法偏见问题；在构建过程中，研究团队需克服多语言语音合成器适配（如F5-TTS对捷克语的微调）、跨模态元数据整合（手工验证说话人教育程度等属性）以及合成质量一致性控制（修剪寄生静音段）等技术难题，这些挑战凸显了构建公平性评估基准的复杂性。

常用场景

经典使用场景

在语音合成与反欺骗领域，SCDF数据集为研究者提供了一个系统评估深度伪造语音检测算法偏见的平台。该数据集通过平衡性别、语言和年龄分布，使得研究者能够深入分析不同说话人特征对检测性能的影响。其多语言覆盖和高样本量的特点，使其成为评估检测算法鲁棒性和公平性的理想选择。

衍生相关工作

SCDF数据集推动了多项关于公平深度检测的研究工作。基于其构建的交叉分析框架被用于评估新型检测模型的公平性；启发开发的平衡训练策略显著降低了ASVspoof系统的性别偏见；衍生的多模态偏见评估方法扩展至视频深度伪造领域。这些工作共同推进了可信AI检测技术的发展。

数据集最近研究