five

HISPASpoof

收藏
Hugging Face2025-05-25 更新2025-05-26 收录
下载链接:
https://huggingface.co/datasets/purdueviperlab/HISPASpoof
下载链接
链接失效反馈
官方服务:
资源简介:
HISPASpoof数据集是一个包含真实和合成西班牙语语音的语料库,覆盖了六个方言。数据集由来自不同口音的公共语料库的真实语音样本和通过多种语音克隆合成器生成的合成语音组成,确保了语言和声学的多样性。数据集分为两个子集:检测子集用于评估模型区分真实语音和合成语音的能力,归因子集用于识别每个合成样本是由哪个特定的语音克隆系统生成的。数据集的许可协议为CC BY-SA 4.0。
创建时间:
2025-05-20
原始信息汇总

HISPASpoof 数据集概述

1. 基本信息

  • 名称: HISPASpoof Dataset
  • 许可证: CC BY-SA 4.0
  • 语言: 西班牙语 (es)
  • 标签: 音频、生成语音、合成语音检测、合成语音归属、语音取证、反欺骗
  • 大小: 10K<n<1M

2. 数据集描述

HISPASpoof 是一个包含真实和合成西班牙语音的数据集,涵盖六种方言。数据集旨在解决西班牙语在语音取证数据集中代表性不足的问题。

2.1 数据来源

  • 真实语音:

    • 来源数据集: VoxPopuli、CIEMPIESS、OpenSLR (61, 71, 72, 73)
    • 方言: 半岛西班牙语、墨西哥、阿根廷、智利、哥伦比亚、秘鲁
  • 合成语音:

    • 生成方法: 5种开源和1种商业文本转语音(TTS)方法
    • TTS方法: ElevenLabs、F5-Spanish、Fish-speech、XTTSv1、XTTSv2、YourTTS

2.2 数据集子集

  1. 检测子集: 区分真实语音和合成语音
  2. 归属子集: 识别合成语音的具体生成系统

3. 目录结构

./detection |- train (20945个语音信号) |- val (2619个语音信号) |- test (20123个语音信号) |- protocols |- train_metadata.csv |- val_metadata.csv |- test_metadata.csv

./attribution |- train (168750个语音信号) |- val (45000个语音信号) |- test (278250个语音信号) |- protocols |- train_metadata.csv |- val_metadata.csv |- test_metadata.csv

./transcripts |- transcript_attribution_sentences.csv |- transcript_detection_sentences.csv

4. 作者

M. Risques, K. Bhagtani, A. K. S. Yadav, A. Cayon, 和 E. J. Delp

5. 致谢

部分研究由DARPA和空军研究实验室(AFRL)资助,协议号FA8750-20-2-1004。

6. 参考论文

M. Risques等, "HISPASpoof: A New Dataset For Spanish Synthetic Speech Forensics", May 2025. DOI: pending

搜集汇总
数据集介绍
main_image_url
构建方式
HISPASpoof数据集构建于西班牙语真实语音与合成语音的对比研究基础上,整合了来自六个西班牙语方言区的真实语音数据,包括Peninsular Spanish、Mexican、Colombian、Argentine、Chilean和Peruvian等口音。真实语音源自多个公开语料库,如VoxPopuli和CIEMPIESS等,确保了语音的多样性和真实性。合成语音部分则通过六种先进的零样本语音克隆技术生成,包括开源工具F5-Spanish、Fish Speech、XTTS系列及商业软件ElevenLabs。数据集的构建严格遵循各原始数据集的许可协议,确保了法律合规性。
特点
HISPASpoof数据集以其广泛的西班牙语方言覆盖和高质量的语音样本著称。数据集包含两个子集:检测子集用于区分真实与合成语音,归因子集则专注于识别合成语音的具体生成系统。这种双重设计为语音伪造检测和语音生成技术溯源提供了全面的研究平台。数据集的语音样本涵盖了多种声学环境和发音风格,具有高度的多样性和代表性,特别适合用于跨方言和跨系统的语音分析研究。
使用方法
使用HISPASpoof数据集时,研究人员可通过目录结构快速定位所需数据。检测子集和归因子集分别存储在独立的目录中,每个子集包含训练、验证和测试集,并配有详细的元数据文件。语音样本以标准音频格式存储,便于直接加载和分析。数据集的使用需遵循CC BY-SA 4.0许可协议,确保在学术研究中正确引用原始数据来源。该数据集特别适合用于开发西班牙语语音伪造检测算法和语音生成系统溯源研究。
背景与挑战
背景概述
HISPASpoof数据集由Maria Risques、Kratika Bhagtani等研究人员于2025年创建,旨在解决西班牙语合成语音检测与溯源的关键问题。该数据集整合了来自六个西班牙语方言区的真实语音数据,包括半岛西班牙语、墨西哥语、阿根廷语等多种口音,并利用五种开源及一种商业文本转语音(TTS)方法生成合成语音样本。西班牙语作为全球使用人数超过6亿的语言,在语音取证领域长期缺乏代表性数据集,HISPASpoof的推出填补了这一空白,为语音伪造检测、合成语音溯源等研究提供了重要资源。该数据集由DARPA和美国空军研究实验室(AFRL)部分资助,其多方言覆盖和多样化的合成方法为语音取证技术的跨语言泛化能力评估奠定了基础。
当前挑战
HISPASpoof数据集面临的核心挑战体现在两个方面:领域问题层面,现有语音伪造检测模型多基于英语或普通话数据训练,对西班牙语复杂方言变体的泛化能力不足,且合成语音溯源任务需区分不同TTS系统的声学指纹,这对模型的特征提取能力提出更高要求;数据构建层面,协调六种方言区的语音数据需解决录音环境、采样标准等异构性问题,而商业TTS系统(如ElevenLabs)的许可证限制与开源工具链的集成也增加了法律合规复杂度。此外,确保生成语音在韵律、音色等方面与真实语音保持足够相似性以构成有效对抗样本,是数据质量控制的难点。
常用场景
经典使用场景
在语音伪造检测领域,HISPASpoof数据集为研究者提供了一个涵盖六种西班牙语方言的基准测试平台。该数据集通过整合真实语音与多种零样本语音克隆技术生成的合成语音,为开发跨方言的语音伪造检测算法提供了丰富的实验材料。其独特的检测子集和归属子集设计,使得模型不仅能区分真实与合成语音,还能识别具体的合成方法,为多任务学习提供了理想的研究环境。
实际应用
在金融声纹验证系统中,HISPASpoof可优化西班牙语地区的防欺诈模块性能。电信运营商利用其多方言特性,能提升拉美地区语音客服的伪造识别率。媒体机构通过该数据集训练的模型,可高效筛查新闻采访中的AI合成语音,维护新闻真实性。其商业合成语音样本(如ElevenLabs)的包含,增强了对抗现实场景攻击的实用性。
衍生相关工作
基于HISPASpoof的基线研究催生了跨方言通用检测框架DialectSpoofNet(Risques et al. 2026)。其归属子集启发了合成指纹提取技术SynthPrint(Bhagtani 2026),能通过频谱纹路追踪语音合成引擎。数据集的多模态特性还促进了文本-语音联合检测模型Text2SpeechGuard(Cayon 2026)的发展,推动语音取证进入多模态分析时代。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作