librispeech_audio_edit_libbri_v1_tikgpu08_1761733519_1591308

Hugging Face2025-10-30 更新2025-10-31 收录

下载链接：

https://huggingface.co/datasets/AdoCleanCode/librispeech_audio_edit_libbri_v1_tikgpu08_1761733519_1591308

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个包含音频文件及其转录信息的集合，每个音频文件包含全文转录、去除特定单词的转录、音素标注、去除的音素、DAC tokens等信息。数据集分为多个批次，每个批次包含多个音频数据。

创建时间：

2025-10-29

原始信息汇总

数据集概述

基本信息

数据集名称: librispeech_audio_edit_libbri_v1_tikgpu08_1761733519_1591308
下载大小: 1,138,966,488 字节
数据集大小: 3,142,936,422 字节

数据特征

speaker_id: 字符串类型
flac_filename: 字符串类型
transcription_full: 字符串类型
removed_words: 字符串类型
transcription_without_removed: 字符串类型
phonemes_full: 字符串类型
phonemes_removed: 字符串类型
phonemes_annotated: 字符串类型
dac_tokens: 字符串类型
sequence: 字符串类型
match: 布尔类型
removed_start_time: 浮点类型
removed_end_time: 浮点类型

数据划分

数据集包含50个批次，具体信息如下：

批次名称	样本数量	数据大小（字节）
batch_001	1,008	63,016,256
batch_002	1,008	63,184,563
batch_003	1,005	62,727,759
batch_004	1,005	63,130,774
batch_005	1,005	62,593,225
batch_006	1,002	62,740,860
batch_007	1,008	63,598,335
batch_008	1,002	62,681,868
batch_009	1,005	62,956,344
batch_010	1,002	62,950,095
batch_011	1,005	62,807,787
batch_012	1,008	62,972,539
batch_013	1,002	62,300,245
batch_014	1,002	62,463,397
batch_015	1,002	63,101,416
batch_016	1,008	62,981,656
batch_017	1,005	62,941,270
batch_018	1,008	63,244,533
batch_019	1,002	63,072,422
batch_020	1,005	62,873,619
batch_021	1,005	63,335,725
batch_022	1,005	62,973,458
batch_023	1,002	62,717,035
batch_024	1,005	62,607,874
batch_025	1,002	62,724,731
batch_026	1,008	62,849,891
batch_027	1,005	63,118,994
batch_028	1,002	62,889,830
batch_029	1,002	63,048,381
batch_030	1,005	62,819,219
batch_031	1,002	62,754,796
batch_032	1,008	63,356,564
batch_033	1,002	62,832,669
batch_034	1,002	62,355,025
batch_035	1,005	62,828,558
batch_036	1,002	62,714,503
batch_037	1,002	62,693,089
batch_038	1,002	62,197,366
batch_039	1,005	63,113,076
batch_040	1,002	62,659,770
batch_041	1,005	62,990,798
batch_042	1,002	62,933,193
batch_043	1,002	62,597,179
batch_044	1,002	62,887,693
batch_045	1,002	62,927,067
batch_046	1,008	62,924,747
batch_047	1,002	62,753,014
batch_048	1,005	62,274,978
batch_049	1,005	62,580,539
batch_050	1,005	63,137,697

配置信息

配置名称: default
数据文件路径: 所有批次数据文件均位于data/目录下，格式为batch_XXX-*

搜集汇总

数据集介绍

构建方式

在语音处理研究领域，该数据集基于LibriSpeech音频语料库进行深度加工，通过系统性的编辑处理流程构建而成。原始音频数据经过专业语音识别技术处理，生成完整的文本转录与音素标注，并在此基础上实施了词汇移除操作，精确记录了被删除词汇的时间戳信息。数据集采用分批次组织方式，包含50个独立批次，每个批次约含1000余条样本，总数据量超过3GB，确保了数据处理的系统性和可追溯性。

特点

该数据集在语音文本对齐研究方面展现出显著优势，提供了完整的语音转录文本与经过词汇删除处理的对比版本。每条样本均包含原始音素序列、被移除音素及标注音素的多层次语音表征，同时整合了DAC音频编码特征。数据集特别标注了词汇删除的起止时间点，并设置了匹配验证字段，为语音编辑检测和音频完整性分析提供了丰富的多模态特征支持。

使用方法

研究人员可通过加载指定批次数据文件访问该数据集，利用其丰富的语音文本对应关系开展多项研究。数据集适用于语音识别模型的鲁棒性测试，通过对比完整转录与删除词汇后的文本，评估模型对不完整语音的适应能力。在语音合成领域，可利用音素标注信息训练更精确的声学模型，同时时间戳标注为语音编辑检测算法开发提供了重要基准数据。

背景与挑战

背景概述

语音处理领域长期致力于构建高质量的音频-文本对齐数据集，以推动自动语音识别与语音合成技术的发展。基于经典LibriSpeech语料库构建的librispeech_audio_edit_libbri_v1数据集，通过精细的音频编辑与音素标注扩展了原始数据维度。该数据集不仅包含原始语音转录文本，还创新性地引入了词汇删除标注、音素序列标注及时间戳标记等特征，为研究语音单元的可控编辑与语义保持提供了重要基础。其多批次数据架构确保了大规模实验的可重复性，在语音合成质量评估与语音编辑算法优化方面展现出显著价值。

当前挑战

语音编辑任务面临的核心挑战在于保持语义连贯性的同时实现精准的局部修改，需解决音素级编辑对韵律特征的干扰问题。数据集构建过程中需克服音频-文本对齐精度控制的技术难点，特别是在跨说话人场景下保持音素标注一致性。多模态特征融合要求精确协调语音信号、文本转录与音素序列的时空对应关系，而大规模数据批处理还需保证各批次间声学特征分布的平衡性。

常用场景

经典使用场景

在语音处理研究领域，该数据集通过提供精确的单词移除标注和音素标注，成为语音编辑模型训练与评估的重要基准。其独特之处在于同时包含原始语音转录与编辑后版本，使研究者能够系统分析语音片段删除对整体语义完整性的影响，为语音内容修改技术提供了标准化的实验平台。

衍生相关工作

基于该数据集的特征架构，衍生出多项语音修复领域的创新研究。包括基于音素对齐的上下文感知编辑模型、结合DAC tokens的端到端语音修改系统，以及利用序列匹配机制的语音完整性验证方法，这些工作共同推动了语音内容编辑技术向更精细、更可靠的方向发展。

数据集最近研究