five

SINE

收藏
Hugging Face2025-06-09 更新2025-06-10 收录
下载链接:
https://huggingface.co/datasets/PeacefulData/SINE
下载链接
链接失效反馈
官方服务:
资源简介:
SINE(语音填充编辑数据集)是一个用于语音deepfake检测和音频真实性验证的全面数据集。该数据集包含了大约87GB的音频数据,分布在32个分割中,包括真实的和合成操纵的语音样本。每个分割包含所有音频文件、真实音频样本、编辑音频样本、剪切粘贴操纵样本和重合成音频样本。数据集适用于语音deepfake检测、时间定位、操纵类型分类和稳健性测试等应用。

SINE (Speech Inpainting Editing Dataset) is a comprehensive dataset for speech deepfake detection and audio authenticity verification. This dataset contains approximately 87GB of audio data, distributed across 32 splits, including both genuine and synthetically manipulated speech samples. Each split contains all audio files, genuine audio samples, edited audio samples, copy-paste manipulated samples, and resynthesized audio samples. The dataset is applicable to applications such as speech deepfake detection, temporal localization, manipulation type classification, and robustness testing.
创建时间:
2025-06-03
原始信息汇总

SINE数据集概述

基本信息

  • 语言:英语
  • 许可证:Apache 2.0
  • 数据规模:10K<n<100K
  • 任务类型:音频分类
  • 标签:音频、语音、深度伪造检测
  • 数据集名称:SINE: Speech INfilling Edit Dataset

数据集详情

  • 配置名称:preview
  • 特征
    • audio:音频,采样率16000Hz
    • filename:文件名,字符串类型
    • category:类别,字符串类型
    • timestamp:时间戳,字符串类型
    • label:标签,int64类型
    • manipulation_type:操作类型,字符串类型
  • 数据分割
    • train:10,309,938字节,30个样本
  • 下载大小:10,039,423字节
  • 数据集大小:10,309,938字节

数据集统计

  • 总大小:约87GB
  • 分割数量:32个(split-0.tar.gz到split-31.tar.gz)
  • 音频格式:WAV文件
  • 来源:基于LibriLight数据集的语音编辑,转录文本来自LibriHeavy

音频统计

音频类型 子集 样本数 说话人数 时长(h) 音频长度(s)
Real/Resyn train 26,547 70 51.82 6.00-8.00
Real/Resyn val 8,676 100 16.98 6.00-8.00
Real/Resyn test 8,494 900 16.60 6.00-8.00
Infill/CaP train 26,546 70 51.98 5.40-9.08
Infill/CaP val 8,686 100 16.99 5.45-8.76
Infill/CaP test 8,493 903 16.64 5.49-8.85

数据结构

每个分割(如split-0/)包含:

split-X/ ├── combine/ # 包含所有音频文件的目录(约11,076个文件) │ ├── dev_real_medium-.wav # 真实音频样本 │ ├── dev_edit_medium-.wav # 编辑音频样本 │ ├── dev_cut_paste_medium-.wav # 剪切粘贴操作样本 │ └── dev_resyn_medium-.wav # 重新合成音频样本 ├── medium_real.txt # 真实音频标签(2,769个条目) ├── medium_edit.txt # 编辑音频标签(2,769个条目) ├── medium_cut_paste.txt # 剪切粘贴音频标签(2,769个条目) └── medium_resyn.txt # 重新合成音频标签(2,769个条目)

音频类别

  1. 真实语音(dev_real_medium-*

    • 原始未修改的语音录音
    • 标签为1(真实)
    • 简单时间注释格式:filename start-end-T label
  2. 重新合成语音(dev_resyn_medium-*

    • 使用HiFi-GAN声码器从梅尔频谱图重新生成的语音
    • 标签为1(真实)
    • 简单时间注释格式
  3. 编辑语音(dev_edit_medium-*

    • 经过人工修改/编辑的音频样本
    • 标签为0(操作)
    • 复杂时间注释,包含真实/伪造部分
  4. 剪切粘贴语音(dev_cut_paste_medium-*

    • 通过剪切和粘贴不同来源的片段创建的音频
    • 标签为0(操作)
    • 复杂时间注释,显示拼接片段

标签格式

简单格式(Real/Resyn)

filename start_time-end_time-T label

示例:

dev_real_medium-100-emerald_city_librivox_64kb_mp3-emeraldcity_02_baum_64kb_21 0.00-7.92-T 1

复杂格式(Edit/Cut-Paste)

filename time_segment1-T/time_segment2-F/time_segment3-T label

示例:

dev_edit_medium-100-emerald_city_librivox_64kb_mp3-emeraldcity_02_baum_64kb_21 0.00-4.89-T/4.89-5.19-F/5.19-8.01-T 0

  • T = 真实片段
  • F = 伪造片段
  • label1 = 真实,0 = 操作

应用场景

  • 语音深度伪造检测:真实与操作语音的二元分类
  • 时间定位:识别包含操作的特定时间段
  • 操作类型分类:区分不同类型的音频操作
  • 鲁棒性测试:评估检测系统在不同操作技术上的表现

引用

bibtex @inproceedings{huang2024detecting, title={Detecting the Undetectable: Assessing the Efficacy of Current Spoof Detection Methods Against Seamless Speech Edits}, author={Huang, Sung-Feng and Kuo, Heng-Cheng and Chen, Zhehuai and Yang, Xuesong and Yang, Chao-Han Huck and Tsao, Yu and Wang, Yu-Chiang Frank and Lee, Hung-yi and Fu, Szu-Wei}, booktitle={2024 IEEE Spoken Language Technology Workshop (SLT)}, pages={652--659}, year={2024}, organization={IEEE} }

许可证

Apache 2.0许可证

搜集汇总
数据集介绍
main_image_url
构建方式
SINE数据集基于LibriLight和LibriHeavy语料库构建,通过专业音频处理技术生成多种合成语音样本。数据构建过程包含四个关键类别:真实语音、重合成语音、编辑语音及剪切粘贴语音,每类样本均采用标准化时间标注格式。研究人员使用HiFi-GAN声码器进行语音重合成,并运用精细的音频编辑技术创建人工修改样本,确保数据集的多样性和技术代表性。
特点
该数据集最显著的特点是包含精确到秒级的细粒度标注体系,既能支持二分类任务又可实现时间定位分析。其87GB的音频数据涵盖70至903位不同说话人,样本时长严格控制在5.4至9.08秒区间,保证数据一致性。独特的复杂标注格式能清晰标示混合样本中的真实与伪造片段,为研究语音操作的局部特征提供可能。
使用方法
使用该数据集时需注意其分卷存储结构,32个独立压缩包需分别解压获取完整数据。研究人员可通过解析配套的txt标注文件建立样本与标签的映射关系,其中简单格式适用于二分类任务,复杂格式支持时间定位研究。典型应用场景包括构建端到端的深度伪造检测模型,或开发能识别特定操作类型的多任务学习系统。
背景与挑战
背景概述
SINE(Speech INfilling Edit)数据集是由NVIDIA与国立台湾大学联合构建的语音深度伪造检测资源,发布于2024年IEEE口语语言技术研讨会。该数据集基于LibriLight和LibriHeavy语料库,包含87GB的音频数据,涵盖真实录音与合成篡改样本,重点解决语音编辑痕迹检测这一新兴研究课题。其创新性在于同时提供全局分类标签和细粒度时间戳标注,支持从二进制判别到篡改片段定位的多层次研究需求,为语音真实性验证领域建立了首个系统化的基准测试平台。
当前挑战
在语音伪造检测领域,SINE针对篡改手段日益隐蔽化的技术挑战,需解决跨操作类型(如片段插入、频谱重构)的泛化性识别难题。数据构建过程中,研究团队面临真实性与篡改样本的平衡性控制、多阶段合成信号的声学一致性校验,以及复杂时间标注的标准化处理等工程挑战。特别是针对语音拼接与神经网络合成混合型攻击的检测边界界定,仍需通过数据多样性增强和标注粒度的优化来突破现有技术瓶颈。
常用场景
经典使用场景
在语音伪造检测领域,SINE数据集凭借其丰富的真实与合成语音样本,成为评估检测算法性能的基准工具。该数据集通过包含多种编辑类型的音频样本,如重合成、片段剪辑和拼接等,为研究者提供了全面测试模型在复杂场景下识别能力的平台。其精确的时间标注格式特别适合开发能够定位篡改位置的时序分析模型。
衍生相关工作
基于SINE数据集已衍生出多项创新研究,包括时序注意力检测网络和跨域泛化框架的开发。NVIDIA团队提出的分层特征提取方法显著提升了细粒度篡改定位精度。后续研究进一步扩展了该数据集的应用边界,如结合自监督学习开发低资源检测方案,以及探索多模态联合检测范式。
数据集最近研究
最新研究方向
在语音深度伪造检测领域,SINE数据集为研究者提供了丰富的真实与合成语音样本,推动了前沿技术的发展。当前研究聚焦于多模态融合检测方法,结合声学特征与文本语义信息,提升对无缝语音编辑的识别精度。随着生成式AI技术的快速演进,针对语音合成、剪辑等复杂操作的鲁棒性检测成为热点,该数据集为评估模型在跨操作类型、跨说话人场景下的泛化能力提供了基准。其在安全认证、内容审核等实际应用中的潜力,正引发工业界与学术界的广泛关注。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作