audio_edit2_tikgpu08_1761433920_315465

Hugging Face2025-10-26 更新2025-10-27 收录

下载链接：

https://huggingface.co/datasets/AdoCleanCode/audio_edit2_tikgpu08_1761433920_315465

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了说话者ID、音频文件名、完整转录文本、去除特定词汇后的转录文本、完整音素序列、去除特定音素后的序列、注释过的音素序列、DAC令牌、音频序列、匹配标志以及去除词汇的开始和结束时间戳等信息。数据集分为多个批次，每个批次包含不同数量的样本，适用于语音识别和语音分析等研究。

创建时间：

2025-10-26

原始信息汇总

数据集概述

基本信息

数据集名称: audio_edit2_tikgpu08_1761433920_315465
下载大小: 1,135,847,862 字节
数据集大小: 2,583,128,008 字节

数据特征

speaker_id: 字符串类型
flac_filename: 字符串类型
transcription_full: 字符串类型
removed_words: 字符串类型
transcription_without_removed: 字符串类型
phonemes_full: 字符串类型
phonemes_removed: 字符串类型
phonemes_annotated: 字符串类型
dac_tokens: 字符串类型
sequence: 字符串类型
match: 布尔类型
removed_start_time: 浮点64类型
removed_end_time: 浮点64类型

数据分片

数据集包含28个分片，详细信息如下：

分片名称	样本数量	数据大小（字节）
batch_001	1,645	102,434,386
batch_002	1,698	105,387,227
batch_003	1,637	101,463,831
batch_004	1,603	98,905,025
batch_005	1,609	99,833,099
batch_006	1,582	97,969,515
batch_007	1,657	102,682,504
batch_008	1,580	97,619,311
batch_009	1,389	86,153,012
batch_010	1,310	81,871,123
batch_011	1,360	84,816,200
batch_012	1,540	96,355,265
batch_013	1,734	108,564,932
batch_014	1,630	102,621,148
batch_015	1,343	83,523,874
batch_016	1,368	84,514,460
batch_017	1,415	87,710,231
batch_018	1,482	91,801,497
batch_019	1,381	85,546,137
batch_020	1,398	86,007,888
batch_021	1,406	87,203,452
batch_022	1,385	85,556,443
batch_023	1,399	86,622,379
batch_024	1,403	87,183,882
batch_025	1,368	85,078,303
batch_026	1,474	91,431,700
batch_027	1,385	85,261,355
batch_028	1,432	89,009,829

总计

总样本数量: 41,154
总数据大小: 2,583,128,008 字节

搜集汇总

数据集介绍

构建方式

在语音处理研究领域，该数据集通过系统化的音频编辑流程构建而成。原始语音数据经过专业转录后，采用精确的文本处理技术识别并移除特定词汇，同时记录被删除内容的起止时间戳。构建过程中对完整文本和编辑后文本分别进行音素标注，并生成对应的DAC音频编码标记。数据集按批次组织，共包含28个独立批次，每个批次包含1300至1700个样本，总样本量达到3.8万余条，确保了数据分布的均衡性和代表性。

特点

该数据集在语音文本对齐研究方面具有显著特色，提供完整的语音转录文本与经过词汇删除处理的文本对比。每个样本包含详细的音素级别标注信息，包括完整音素序列、被删除音素以及标注后的音素序列。数据集特别提供了精确的时间对齐信息，标注了被删除词汇在音频中的起止时间点。多维度特征的整合使得该数据集能够支持复杂的语音文本关联分析，为语音编辑和语音理解研究提供了丰富的实验素材。

使用方法

在语音处理实验应用中，研究人员可通过加载特定批次数据访问语音文件及其对应的文本标注信息。数据集支持多种研究场景，包括语音文本对齐验证、语音编辑效果评估以及音素级别分析。使用时可根据speaker_id筛选特定说话人数据，利用transcription_full和transcription_without_removed进行文本对比研究。通过phonemes系列字段可深入分析音素变化，removed_start_time和removed_end_time则为时序分析提供精确依据，match字段可用于验证编辑结果的准确性。

背景与挑战

背景概述

语音编辑数据集作为语音处理领域的重要资源，旨在推动语音内容精细化修改技术的发展。该数据集通过整合说话人身份、完整转录文本、移除词汇信息及音素标注等多元特征，为研究语音序列的局部编辑与语义保持提供了结构化数据基础。其构建反映了当前语音合成与识别系统对可控内容编辑能力的需求，通过精确标注的时间戳和音素序列，支持对语音流中特定片段的定位与替换操作研究。

当前挑战

语音编辑任务需解决自然语言与语音信号对齐的复杂性，包括被移除词汇的边界精确界定与上下文连贯性保持等核心问题。数据构建过程中面临多模态标注一致性挑战，例如音素序列与音频片段的时序匹配、不同说话人发音差异导致的标注歧义，以及大规模语音数据中编辑操作的可扩展性验证。这些因素共同增加了高质量语音编辑数据集构建的技术门槛。

常用场景

经典使用场景

在语音处理领域，该数据集通过提供包含完整转录、移除词汇及对应音素标注的音频样本，成为语音编辑与内容修改研究的核心资源。其典型应用场景包括训练模型识别并处理语音中的特定词汇片段，支持语音内容的后处理与优化，为语音合成和编辑技术提供精准的数据基础。

实际应用

在实际应用中，该数据集被广泛用于开发智能语音编辑工具，支持音频内容的自动化修正与定制化处理。例如，在媒体制作领域，它可用于生成无敏感词汇的广播音频；在教育技术中，则能辅助构建语音学习系统，帮助学习者通过对比完整与修改后的语音内容提升发音准确性。

衍生相关工作

基于该数据集，衍生出多项语音编辑与生成的经典研究工作，包括端到端语音修改模型的开发、音素级对抗训练方法的探索，以及多模态语音内容理解系统的构建。这些工作进一步拓展了语音处理在隐私保护、内容适配等方向的应用边界，形成了以数据驱动为核心的语音技术研究脉络。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集