Famous Figures Dataset

Name: Famous Figures Dataset
Creator: 美国密歇根大学电气与计算机工程系
Published: 2025-07-01 07:41:04
License: 暂无描述

arXiv2025-07-01 更新2025-07-04 收录

下载链接：

https://datasets.issflab.net

下载链接

链接失效反馈

官方服务：

资源简介：

Famous Figures数据集由美国密歇根大学电气与计算机工程系创建，旨在为政治人物提供高质量的语音合成数据，用于研究和开发音频反欺骗检测系统。数据集包含10位知名政治人物的26,500条真实语音样本和265,000条合成语音样本，平均时长约为8秒。数据集的创建过程涉及从YouTube视频收集高质量音频，使用Assembly AI进行说话人分割，OpenAI Whisper Large Turbo进行转录，并基于转录进行音频分割。合成语音生成采用了多种文本到语音（TTS）系统，包括单说话人模型、少量样本微调和零样本合成。该数据集可用于解决音频欺骗检测问题，保护公众人物免受语音伪造攻击。

The Famous Figures dataset was created by the Department of Electrical and Computer Engineering, University of Michigan, United States. It aims to provide high-quality speech synthesis data for political figures to support research and development of audio anti-spoofing detection systems. The dataset contains 26,500 real speech samples and 265,000 synthetic speech samples from 10 well-known political figures, with an average duration of approximately 8 seconds per sample. The dataset development process involves collecting high-quality audio from YouTube videos, performing speaker diarization via Assembly AI, conducting transcription using OpenAI Whisper Large Turbo, and executing audio segmentation based on the resulting transcriptions. For synthetic speech generation, multiple text-to-speech (TTS) systems are utilized, including single-speaker models, few-shot fine-tuning, and zero-shot synthesis. This dataset can be used to address audio spoofing detection challenges and protect public figures against voice forgery attacks.

提供机构：

美国密歇根大学电气与计算机工程系

创建时间：

2025-07-01

原始信息汇总

数据集概述

ASVSpoof Laundered

数据集类型：未明确说明
应用领域：可能与音频欺骗检测相关（基于实验室研究方向推断）
实验室研究背景：信号处理、大数据分析、深度伪造检测

Famous Figures

数据集类型：未明确说明
应用领域：可能与人物识别或深度伪造检测相关（基于实验室研究方向推断）
实验室研究背景：多媒体取证、信息安全性

实验室资源支持

计算资源：高性能计算集群
设备支持：现代智能手机阵列、各类传感器
专项研究设备：福特福克斯车辆（用于汽车网络安全研究）

搜集汇总

数据集介绍

构建方式

在语音合成技术迅猛发展的背景下，Famous Figures Dataset采用了一套系统化的构建流程。该流程首先从公开的YouTube视频中筛选出10位高频曝光政治人物的演讲内容，严格遵循720p分辨率、5分钟以上时长及2018-2024年发布的时间范围标准。通过yt-dlp工具提取音频后，利用Assembly AI进行说话人分离，再结合OpenAI Whisper Large Turbo实现带时间戳的转录。创新性地采用基于标点符号的智能分段算法，将语音按语义完整性切割为平均8秒的片段，显著提升了合成语音的自然度。最后通过单说话人训练、少样本微调和零样本合成三种TTS方法生成对应伪造样本，形成包含26,500条真实语音和265,000条合成语音的平衡数据集。

特点

该数据集在深度伪造检测领域展现出三大核心特征：其一，聚焦政治人物这一高风险目标群体，覆盖拜登、特朗普等10位易受语音伪造攻击的公众人物，填补了身份特异性数据集的空白；其二，采用转录驱动的智能分段技术，相比传统固定间隔切割（如SpoofCeleb数据集），有效解决了语句截断和静音过长问题，使合成语音的自然度评分（NISQA-TTS 3.69）超越现有主流数据集；其三，包含从传统TTS到基于音频语言模型（ALM）的最新零样本合成技术共10种生成方法，全面模拟现实攻击场景，其合成样本的人类误判率高达61.9%，为检测模型提供了极具挑战性的测试基准。

使用方法

该数据集主要服务于音频反欺骗检测系统的开发与评估。研究者可通过实验室网站申请获取数据，使用时建议划分三部分：真实语音样本用于建立说话人声纹基线，单说话人训练生成的合成样本适用于传统伪造检测研究，而基于ALM的零样本合成样本则可用于测试模型对新兴攻击手段的鲁棒性。评估时应参考论文提供的标准化测试协议，重点关注跨合成方法的泛化性能。对于实际应用场景，建议结合政治人物特有的韵律特征（如演讲语调的抑扬变化）设计检测算法，并利用数据集中丰富的上下文类型（演讲、访谈等）增强模型在复杂声学环境下的识别能力。

背景与挑战

背景概述

Famous Figures Dataset是由密歇根大学电气与计算机工程系的Hashim Ali等研究人员于2025年提出的一个专注于政治人物语音真实性与深度伪造检测的数据集。该数据集的创建源于近年来语音合成技术的快速发展，尤其是针对公众人物的语音模仿攻击日益增多，对信息真实性和社会稳定性构成了严峻挑战。数据集收录了包括拜登、特朗普等10位知名政治人物的真实及合成语音样本，通过自动化流程采集高质量真实语音，并采用多种文本转语音技术生成对应的合成语音。其创新性在于采用基于转录的分割方法显著提升了合成语音质量，NISQA-TTS自然度评分达到3.69，人类误判率高达61.9%，为音频反欺骗研究提供了重要基准。

当前挑战

该数据集主要面临两方面的挑战：在领域问题层面，需解决政治人物语音深度伪造检测的特殊性难题，包括如何准确捕捉公众人物独特的发声特征和演讲风格，以及如何应对社交媒体环境下低信噪比（平均12.12dB）的实时语音数据。在构建过程中，研究人员遭遇了三大技术瓶颈：真实语音样本的采集需克服公开视频中背景噪声干扰和跨说话人混音问题；合成语音生成面临单说话人模型韵律不自然（需至少24小时训练数据）与零样本合成音色失真的平衡；质量评估环节需开发适应政治演讲动态范围的客观评价指标，突破传统TTS数据集仅针对朗读语音的局限性。

常用场景

经典使用场景

在语音合成与伪造检测领域，Famous Figures Dataset以其高质量的合成语音样本和真实语音对比数据，成为评估音频伪造检测系统性能的黄金标准。该数据集特别适用于研究针对特定公众人物的语音伪造攻击，其多样化的语音上下文和高质量的音频样本为研究者提供了丰富的实验材料。通过该数据集，研究者能够深入探索语音合成技术的最新进展及其对语音伪造检测的挑战。

衍生相关工作

Famous Figures Dataset的发布推动了多项相关研究工作的开展。例如，基于该数据集的语音伪造检测算法在ASVspoof挑战赛中表现出色，进一步验证了其在实际应用中的价值。此外，该数据集还催生了多项针对特定语音合成技术的检测方法研究，如基于零样本学习的语音伪造检测和跨语言语音伪造检测技术。这些工作不仅扩展了数据集的应用范围，也为语音安全领域的技术进步提供了重要支持。

数据集最近研究