five

librispeech_audio_edit_libbri_v1_tikgpu08_1761733519_1591308

收藏
Hugging Face2025-10-30 更新2025-10-31 收录
下载链接:
https://huggingface.co/datasets/AdoCleanCode/librispeech_audio_edit_libbri_v1_tikgpu08_1761733519_1591308
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个包含音频文件及其转录信息的集合,每个音频文件包含全文转录、去除特定单词的转录、音素标注、去除的音素、DAC tokens等信息。数据集分为多个批次,每个批次包含多个音频数据。
创建时间:
2025-10-29
原始信息汇总

数据集概述

基本信息

  • 数据集名称: librispeech_audio_edit_libbri_v1_tikgpu08_1761733519_1591308
  • 下载大小: 1,138,966,488 字节
  • 数据集大小: 3,142,936,422 字节

数据特征

  • speaker_id: 字符串类型
  • flac_filename: 字符串类型
  • transcription_full: 字符串类型
  • removed_words: 字符串类型
  • transcription_without_removed: 字符串类型
  • phonemes_full: 字符串类型
  • phonemes_removed: 字符串类型
  • phonemes_annotated: 字符串类型
  • dac_tokens: 字符串类型
  • sequence: 字符串类型
  • match: 布尔类型
  • removed_start_time: 浮点类型
  • removed_end_time: 浮点类型

数据划分

数据集包含50个批次,具体信息如下:

批次名称 样本数量 数据大小(字节)
batch_001 1,008 63,016,256
batch_002 1,008 63,184,563
batch_003 1,005 62,727,759
batch_004 1,005 63,130,774
batch_005 1,005 62,593,225
batch_006 1,002 62,740,860
batch_007 1,008 63,598,335
batch_008 1,002 62,681,868
batch_009 1,005 62,956,344
batch_010 1,002 62,950,095
batch_011 1,005 62,807,787
batch_012 1,008 62,972,539
batch_013 1,002 62,300,245
batch_014 1,002 62,463,397
batch_015 1,002 63,101,416
batch_016 1,008 62,981,656
batch_017 1,005 62,941,270
batch_018 1,008 63,244,533
batch_019 1,002 63,072,422
batch_020 1,005 62,873,619
batch_021 1,005 63,335,725
batch_022 1,005 62,973,458
batch_023 1,002 62,717,035
batch_024 1,005 62,607,874
batch_025 1,002 62,724,731
batch_026 1,008 62,849,891
batch_027 1,005 63,118,994
batch_028 1,002 62,889,830
batch_029 1,002 63,048,381
batch_030 1,005 62,819,219
batch_031 1,002 62,754,796
batch_032 1,008 63,356,564
batch_033 1,002 62,832,669
batch_034 1,002 62,355,025
batch_035 1,005 62,828,558
batch_036 1,002 62,714,503
batch_037 1,002 62,693,089
batch_038 1,002 62,197,366
batch_039 1,005 63,113,076
batch_040 1,002 62,659,770
batch_041 1,005 62,990,798
batch_042 1,002 62,933,193
batch_043 1,002 62,597,179
batch_044 1,002 62,887,693
batch_045 1,002 62,927,067
batch_046 1,008 62,924,747
batch_047 1,002 62,753,014
batch_048 1,005 62,274,978
batch_049 1,005 62,580,539
batch_050 1,005 63,137,697

配置信息

  • 配置名称: default
  • 数据文件路径: 所有批次数据文件均位于data/目录下,格式为batch_XXX-*
搜集汇总
数据集介绍
main_image_url
构建方式
在语音处理研究领域,该数据集基于LibriSpeech音频语料库进行深度加工,通过系统性的编辑处理流程构建而成。原始音频数据经过专业语音识别技术处理,生成完整的文本转录与音素标注,并在此基础上实施了词汇移除操作,精确记录了被删除词汇的时间戳信息。数据集采用分批次组织方式,包含50个独立批次,每个批次约含1000余条样本,总数据量超过3GB,确保了数据处理的系统性和可追溯性。
特点
该数据集在语音文本对齐研究方面展现出显著优势,提供了完整的语音转录文本与经过词汇删除处理的对比版本。每条样本均包含原始音素序列、被移除音素及标注音素的多层次语音表征,同时整合了DAC音频编码特征。数据集特别标注了词汇删除的起止时间点,并设置了匹配验证字段,为语音编辑检测和音频完整性分析提供了丰富的多模态特征支持。
使用方法
研究人员可通过加载指定批次数据文件访问该数据集,利用其丰富的语音文本对应关系开展多项研究。数据集适用于语音识别模型的鲁棒性测试,通过对比完整转录与删除词汇后的文本,评估模型对不完整语音的适应能力。在语音合成领域,可利用音素标注信息训练更精确的声学模型,同时时间戳标注为语音编辑检测算法开发提供了重要基准数据。
背景与挑战
背景概述
语音处理领域长期致力于构建高质量的音频-文本对齐数据集,以推动自动语音识别与语音合成技术的发展。基于经典LibriSpeech语料库构建的librispeech_audio_edit_libbri_v1数据集,通过精细的音频编辑与音素标注扩展了原始数据维度。该数据集不仅包含原始语音转录文本,还创新性地引入了词汇删除标注、音素序列标注及时间戳标记等特征,为研究语音单元的可控编辑与语义保持提供了重要基础。其多批次数据架构确保了大规模实验的可重复性,在语音合成质量评估与语音编辑算法优化方面展现出显著价值。
当前挑战
语音编辑任务面临的核心挑战在于保持语义连贯性的同时实现精准的局部修改,需解决音素级编辑对韵律特征的干扰问题。数据集构建过程中需克服音频-文本对齐精度控制的技术难点,特别是在跨说话人场景下保持音素标注一致性。多模态特征融合要求精确协调语音信号、文本转录与音素序列的时空对应关系,而大规模数据批处理还需保证各批次间声学特征分布的平衡性。
常用场景
经典使用场景
在语音处理研究领域,该数据集通过提供精确的单词移除标注和音素标注,成为语音编辑模型训练与评估的重要基准。其独特之处在于同时包含原始语音转录与编辑后版本,使研究者能够系统分析语音片段删除对整体语义完整性的影响,为语音内容修改技术提供了标准化的实验平台。
衍生相关工作
基于该数据集的特征架构,衍生出多项语音修复领域的创新研究。包括基于音素对齐的上下文感知编辑模型、结合DAC tokens的端到端语音修改系统,以及利用序列匹配机制的语音完整性验证方法,这些工作共同推动了语音内容编辑技术向更精细、更可靠的方向发展。
数据集最近研究
最新研究方向
在语音处理领域,基于LibriSpeech的编辑数据集正推动语音内容精准操控技术的前沿探索。该数据集通过标注移除词汇及其对应时间戳、音素序列与DAC编码,为语音修复与内容编辑任务提供了结构化基准。当前研究聚焦于利用多模态对齐机制,开发能够理解语音语义并实现无损修改的神经网络架构,相关成果正逐步应用于智能语音助手的内容过滤与个性化播报系统,显著提升了人机交互的自然度与安全性。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作