SINE

Hugging Face2025-06-09 更新2025-06-10 收录

下载链接：

https://huggingface.co/datasets/PeacefulData/SINE

下载链接

链接失效反馈

官方服务：

资源简介：

SINE（语音填充编辑数据集）是一个用于语音deepfake检测和音频真实性验证的全面数据集。该数据集包含了大约87GB的音频数据，分布在32个分割中，包括真实的和合成操纵的语音样本。每个分割包含所有音频文件、真实音频样本、编辑音频样本、剪切粘贴操纵样本和重合成音频样本。数据集适用于语音deepfake检测、时间定位、操纵类型分类和稳健性测试等应用。

SINE (Speech Inpainting Editing Dataset) is a comprehensive dataset for speech deepfake detection and audio authenticity verification. This dataset contains approximately 87GB of audio data, distributed across 32 splits, including both genuine and synthetically manipulated speech samples. Each split contains all audio files, genuine audio samples, edited audio samples, copy-paste manipulated samples, and resynthesized audio samples. The dataset is applicable to applications such as speech deepfake detection, temporal localization, manipulation type classification, and robustness testing.

创建时间：

2025-06-03

原始信息汇总

SINE数据集概述

基本信息

语言：英语
许可证：Apache 2.0
数据规模：10K<n<100K
任务类型：音频分类
标签：音频、语音、深度伪造检测
数据集名称：SINE: Speech INfilling Edit Dataset

数据集详情

配置名称：preview
特征：
- audio：音频，采样率16000Hz
- filename：文件名，字符串类型
- category：类别，字符串类型
- timestamp：时间戳，字符串类型
- label：标签，int64类型
- manipulation_type：操作类型，字符串类型
数据分割：
- train：10,309,938字节，30个样本
下载大小：10,039,423字节
数据集大小：10,309,938字节

数据集统计

总大小：约87GB
分割数量：32个（split-0.tar.gz到split-31.tar.gz）
音频格式：WAV文件
来源：基于LibriLight数据集的语音编辑，转录文本来自LibriHeavy

音频统计

音频类型	子集	样本数	说话人数	时长(h)	音频长度(s)
Real/Resyn	train	26,547	70	51.82	6.00-8.00
Real/Resyn	val	8,676	100	16.98	6.00-8.00
Real/Resyn	test	8,494	900	16.60	6.00-8.00
Infill/CaP	train	26,546	70	51.98	5.40-9.08
Infill/CaP	val	8,686	100	16.99	5.45-8.76
Infill/CaP	test	8,493	903	16.64	5.49-8.85

数据结构

每个分割（如split-0/）包含：

split-X/ ├── combine/ # 包含所有音频文件的目录（约11,076个文件） │ ├── dev_real_medium-.wav # 真实音频样本 │ ├── dev_edit_medium-.wav # 编辑音频样本 │ ├── dev_cut_paste_medium-.wav # 剪切粘贴操作样本 │ └── dev_resyn_medium-.wav # 重新合成音频样本 ├── medium_real.txt # 真实音频标签（2,769个条目） ├── medium_edit.txt # 编辑音频标签（2,769个条目） ├── medium_cut_paste.txt # 剪切粘贴音频标签（2,769个条目） └── medium_resyn.txt # 重新合成音频标签（2,769个条目）

音频类别

真实语音（dev_real_medium-*）
- 原始未修改的语音录音
- 标签为1（真实）
- 简单时间注释格式：filename start-end-T label
重新合成语音（dev_resyn_medium-*）
- 使用HiFi-GAN声码器从梅尔频谱图重新生成的语音
- 标签为1（真实）
- 简单时间注释格式
编辑语音（dev_edit_medium-*）
- 经过人工修改/编辑的音频样本
- 标签为0（操作）
- 复杂时间注释，包含真实/伪造部分
剪切粘贴语音（dev_cut_paste_medium-*）
- 通过剪切和粘贴不同来源的片段创建的音频
- 标签为0（操作）
- 复杂时间注释，显示拼接片段

标签格式

简单格式（Real/Resyn）

filename start_time-end_time-T label

示例：

dev_real_medium-100-emerald_city_librivox_64kb_mp3-emeraldcity_02_baum_64kb_21 0.00-7.92-T 1

复杂格式（Edit/Cut-Paste）

filename time_segment1-T/time_segment2-F/time_segment3-T label

示例：

dev_edit_medium-100-emerald_city_librivox_64kb_mp3-emeraldcity_02_baum_64kb_21 0.00-4.89-T/4.89-5.19-F/5.19-8.01-T 0

T = 真实片段
F = 伪造片段
label：1 = 真实，0 = 操作

应用场景

语音深度伪造检测：真实与操作语音的二元分类
时间定位：识别包含操作的特定时间段
操作类型分类：区分不同类型的音频操作
鲁棒性测试：评估检测系统在不同操作技术上的表现

引用

bibtex @inproceedings{huang2024detecting, title={Detecting the Undetectable: Assessing the Efficacy of Current Spoof Detection Methods Against Seamless Speech Edits}, author={Huang, Sung-Feng and Kuo, Heng-Cheng and Chen, Zhehuai and Yang, Xuesong and Yang, Chao-Han Huck and Tsao, Yu and Wang, Yu-Chiang Frank and Lee, Hung-yi and Fu, Szu-Wei}, booktitle={2024 IEEE Spoken Language Technology Workshop (SLT)}, pages={652--659}, year={2024}, organization={IEEE} }

许可证

Apache 2.0许可证

搜集汇总

数据集介绍

构建方式

SINE数据集基于LibriLight和LibriHeavy语料库构建，通过专业音频处理技术生成多种合成语音样本。数据构建过程包含四个关键类别：真实语音、重合成语音、编辑语音及剪切粘贴语音，每类样本均采用标准化时间标注格式。研究人员使用HiFi-GAN声码器进行语音重合成，并运用精细的音频编辑技术创建人工修改样本，确保数据集的多样性和技术代表性。

特点

该数据集最显著的特点是包含精确到秒级的细粒度标注体系，既能支持二分类任务又可实现时间定位分析。其87GB的音频数据涵盖70至903位不同说话人，样本时长严格控制在5.4至9.08秒区间，保证数据一致性。独特的复杂标注格式能清晰标示混合样本中的真实与伪造片段，为研究语音操作的局部特征提供可能。

使用方法

使用该数据集时需注意其分卷存储结构，32个独立压缩包需分别解压获取完整数据。研究人员可通过解析配套的txt标注文件建立样本与标签的映射关系，其中简单格式适用于二分类任务，复杂格式支持时间定位研究。典型应用场景包括构建端到端的深度伪造检测模型，或开发能识别特定操作类型的多任务学习系统。

背景与挑战

背景概述

SINE（Speech INfilling Edit）数据集是由NVIDIA与国立台湾大学联合构建的语音深度伪造检测资源，发布于2024年IEEE口语语言技术研讨会。该数据集基于LibriLight和LibriHeavy语料库，包含87GB的音频数据，涵盖真实录音与合成篡改样本，重点解决语音编辑痕迹检测这一新兴研究课题。其创新性在于同时提供全局分类标签和细粒度时间戳标注，支持从二进制判别到篡改片段定位的多层次研究需求，为语音真实性验证领域建立了首个系统化的基准测试平台。

当前挑战

在语音伪造检测领域，SINE针对篡改手段日益隐蔽化的技术挑战，需解决跨操作类型（如片段插入、频谱重构）的泛化性识别难题。数据构建过程中，研究团队面临真实性与篡改样本的平衡性控制、多阶段合成信号的声学一致性校验，以及复杂时间标注的标准化处理等工程挑战。特别是针对语音拼接与神经网络合成混合型攻击的检测边界界定，仍需通过数据多样性增强和标注粒度的优化来突破现有技术瓶颈。

常用场景

经典使用场景

在语音伪造检测领域，SINE数据集凭借其丰富的真实与合成语音样本，成为评估检测算法性能的基准工具。该数据集通过包含多种编辑类型的音频样本，如重合成、片段剪辑和拼接等，为研究者提供了全面测试模型在复杂场景下识别能力的平台。其精确的时间标注格式特别适合开发能够定位篡改位置的时序分析模型。

衍生相关工作

基于SINE数据集已衍生出多项创新研究，包括时序注意力检测网络和跨域泛化框架的开发。NVIDIA团队提出的分层特征提取方法显著提升了细粒度篡改定位精度。后续研究进一步扩展了该数据集的应用边界，如结合自监督学习开发低资源检测方案，以及探索多模态联合检测范式。

数据集最近研究