libri_audio_edit_v003

Hugging Face2025-11-28 更新2025-11-29 收录

下载链接：

https://huggingface.co/datasets/AdoCleanCode/libri_audio_edit_v003

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个包含了音频文件及其相关信息的集合，具体包括说话者ID、音频文件名、完整和修改后的转录文本、音素信息等。数据集分为多个批次，每个批次有20001个样本，除了最后一个批次有8448个样本。数据集主要用于语音识别和语音处理任务。

创建时间：

2025-11-27

原始信息汇总

Libri Audio Edit v003 数据集概述

数据集基本信息

数据集名称: libri_audio_edit_v003
总下载大小: 610767491字节
总数据集大小: 2593019980字节
数据格式: 结构化数据

数据特征

speaker_id: 说话者标识（字符串类型）
flac_filename: 音频文件名（字符串类型）
transcription_full: 完整文本转录（字符串类型）
removed_words: 被移除的词语（字符串类型）
transcription_without_removed: 移除词语后的转录文本（字符串类型）
phonemes_full: 完整音素标注（字符串类型）
phonemes_removed: 被移除音素（字符串类型）
phonemes_annotated: 音素注释（字符串类型）
xcodec2_tokens: XCodec2编码标记（字符串类型）
sequence: 序列信息（字符串类型）
match: 匹配标识（布尔类型）
removed_start_time: 移除开始时间（浮点数类型）
removed_end_time: 移除结束时间（浮点数类型）

数据分片

数据集包含12个分片批次：

分片名称	样本数量	数据大小（字节）
batch_001	20001	227371501
batch_002	20001	226075720
batch_003	20001	227142357
batch_004	20001	227163226
batch_005	20001	227212281
batch_006	20001	226374673
batch_007	20001	226735083
batch_008	20001	227276162
batch_009	20001	227684823
batch_010	20001	226209856
batch_011	20001	227533295
batch_012	8448	96241003

配置信息

默认配置名称: default
数据文件路径: 各分片对应data/目录下的相应文件

搜集汇总

数据集介绍

构建方式

在语音处理研究领域，libri_audio_edit_v003数据集基于LibriSpeech语料库进行深度加工构建。该数据集通过系统性地移除音频片段中的特定词汇，并精确标注其起止时间，同时保留完整的原始转录文本与音素序列。构建过程中还整合了xcodec2音频编码特征，形成包含20余万条样本的12个批次结构化数据，每个样本均经过严格的语音-文本对齐验证。

特点

该数据集的核心特征在于其多模态标注体系，不仅提供标准的说话人标识和音频文件路径，还创新性地包含被移除词汇的完整上下文信息。数据集中每个样本均具备原始转录、移除后文本、全音素标注及移除音素标注四重文本表征，配合精确的时间戳和xcodec2编码特征，为语音编辑研究提供了丰富的监督信号。其独特的布尔匹配标识进一步增强了数据质量的可控性。

使用方法

研究者可通过加载指定批次数据文件快速接入该数据集，利用其丰富的标注信息开展语音修复、内容编辑等实验。典型应用流程包括：基于removed_words和对应时间戳定位待处理音频段，通过phonemes_annotated进行音素级分析，结合xcodec2_tokens实现神经编解码器训练。数据集的层次化结构支持按说话人或文本复杂度进行子集划分，为语音合成与识别模型提供精准的微调样本。

背景与挑战

背景概述

语音编辑技术作为语音处理领域的重要分支，近年来受到学术界与工业界的广泛关注。libri_audio_edit_v003数据集基于经典LibriSpeech语料库构建，其核心研究聚焦于语音序列的局部编辑与内容替换。该数据集通过精确标注被移除词汇的时间戳及对应音素序列，为语音修复、内容篡改检测等任务提供了结构化数据支持。其多批次数据分布与细粒度音素标注体系，显著推动了语音合成与识别系统在动态编辑场景下的性能优化。

当前挑战

语音编辑任务面临语义连贯性与声学自然度的双重挑战，需在保留原始语音韵律的同时实现局部内容的无缝替换。数据构建过程中，精确对齐文本转录与音频片段的时间边界成为关键难点，尤其需解决音素级标注与跨说话人声学特征匹配问题。此外，xcodec2编码器的令牌序列生成要求保持声学模型与语言模型的一致性，对多模态数据的协同处理提出了更高要求。

常用场景

经典使用场景

在语音处理领域，libri_audio_edit_v003数据集通过提供带有部分词汇移除的音频片段及其完整转录，为语音编辑和修复任务奠定了坚实基础。该数据集常用于训练模型识别并处理语音中的缺失部分，例如在语音增强或噪声消除场景中，模型需要基于上下文推断被移除的词汇，从而恢复原始语音内容。其丰富的音素标注和xcodec2令牌信息进一步支持了端到端的语音处理流程，使得研究人员能够深入探索语音信号的局部修改与全局一致性之间的关系。

衍生相关工作

基于该数据集衍生的经典工作主要集中在语音修复与生成方向。多项研究利用其细粒度的音素标注和编辑标记，开发了端到端的语音补全模型，这些模型能够根据上下文预测被移除的语音片段。此外，该数据集还催生了针对语音连贯性评估的新基准测试，推动了语音处理领域对局部编辑全局影响的理论建模。部分工作进一步结合xcodec2令牌特性，探索了跨模态语音编辑在低资源条件下的应用潜力。

数据集最近研究