German Speech Corpus aligned with CTC segmentation

github2023-12-05 更新2024-05-31 收录

下载链接：

https://github.com/lumaku/german-corpus-aligned

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含通过CTC分割对Librivox和Spoken Wikipedia Corpus（SWC）进行的对齐。数据集包括两个主要部分：SWC和Librivox，分别有210小时和804小时的语音数据，涉及363和251位说话人，以及78214和368532条话语。数据集提供了预处理的文本和音频文件的对齐信息，用户可以通过文件名和话语ID访问音频文件。

This dataset provides alignments for Librivox and the Spoken Wikipedia Corpus (SWC) generated via CTC segmentation. It consists of two core components: SWC and Librivox. SWC includes 210 hours of speech data, 363 speakers, and 78,214 utterances, while Librivox contains 804 hours of speech data, 251 speakers, and 368,532 utterances. The dataset provides alignment information between preprocessed text and audio files, and users can access the audio files via their filenames and utterance IDs.

创建时间：

2021-07-27

原始信息汇总

German Speech Corpus aligned with CTC segmentation

数据集概述

该数据集包含两个子数据集的预处理文本和对其结果：

数据集	时长	说话人数	话语数
SWC	210小时	363	78214
Librivox	804小时	251	368532

数据来源

SWC: German Spoken Wikipedia Corpus
Librivox: 音频文件可通过元数据文件 books-German.json 中的 ID 自动从 LibriVox API 获取，例如：https://librivox.org/api/feed/audiobooks/?id=82&format=json。此外，MP3 文件包可在 MMK 网站获取。

文件命名规则

Librivox: 命名格式为 librivox_{book_id}_{chapter}_{utterance_id}。说话人信息存储在单独的文件 librivox_utt2spk 中。

其他资源

预训练的 ASR 模型（Transformer）可在本仓库的 Releases 部分获取。
更多详细描述可在 CTC segmentation 论文中找到，链接如下：
- Springer Link
- ArXiv

搜集汇总

数据集介绍

构建方式

该数据集的构建基于Librivox和Spoken Wikipedia Corpus (SWC)两大语料库，通过CTC分割技术对音频与文本进行对齐处理。具体而言，SWC语料库包含210小时的音频数据，涉及363位说话者的78,214条语音片段；Librivox语料库则包含804小时的音频数据，涵盖251位说话者的368,532条语音片段。音频文件与文本对齐信息通过文件名和语音片段ID进行关联，确保数据的完整性与可追溯性。

特点

该数据集的特点在于其大规模、多说话者的语音数据，涵盖了丰富的语音场景与内容。数据集不仅提供了高质量的音频与文本对齐信息，还支持通过文件命名规则和元数据文件快速定位音频资源。此外，数据集还包含一个预训练的自动语音识别（ASR）模型，为研究者提供了即插即用的工具，便于进一步的研究与应用。

使用方法

使用该数据集时，研究者可通过文件命名规则和元数据文件快速获取所需的音频资源。对于Librivox语料库，音频文件可通过LibriVox API自动下载，或直接从提供的MP3压缩包中获取。数据集中的对齐信息可直接用于语音识别、语音合成等任务，而预训练的ASR模型则为相关研究提供了便利的起点。此外，数据集还提供了详细的文档与镜像链接，确保用户能够高效地访问与使用数据。

背景与挑战

背景概述

German Speech Corpus aligned with CTC segmentation 数据集是一个专注于德语语音识别的研究资源，结合了Librivox和Spoken Wikipedia Corpus (SWC)两大语料库。该数据集由慕尼黑工业大学（TUM）的研究团队于2020年发布，旨在通过CTC（Connectionist Temporal Classification）分割技术，提供高质量的语音与文本对齐数据。数据集涵盖了超过1000小时的德语语音数据，涉及数百名说话者，为语音识别、语音合成等自然语言处理任务提供了丰富的训练和测试资源。该数据集的发布显著推动了德语语音处理领域的研究进展，尤其是在端到端语音识别模型的训练与优化方面。

当前挑战

该数据集在构建过程中面临了多方面的挑战。首先，语音与文本的对齐问题是一个核心难点，尤其是在处理长音频和多说话者场景时，CTC分割技术虽然有效，但仍需克服噪声、口音差异等干扰因素。其次，数据集的规模庞大，Librivox和SWC的音频文件分散在不同来源，数据整合与预处理过程复杂且耗时。此外，数据集的下载与存储也面临技术挑战，由于Git-LFS的存储限制，研究人员需依赖镜像站点获取完整数据。这些挑战不仅影响了数据集的构建效率，也对后续的研究应用提出了更高的技术要求。

常用场景

经典使用场景

在语音识别和自然语言处理领域，German Speech Corpus aligned with CTC segmentation数据集被广泛用于训练和评估自动语音识别（ASR）系统。该数据集结合了Librivox和Spoken Wikipedia Corpus（SWC）的音频和文本对齐信息，为研究者提供了一个高质量的德语语音语料库。通过CTC分割技术，研究者可以精确地对齐音频和文本，从而提升ASR模型的训练效果。

解决学术问题

该数据集解决了语音识别领域中常见的对齐问题，尤其是在德语语音识别任务中。通过提供精确的音频和文本对齐信息，研究者能够更有效地训练ASR模型，减少对齐误差对模型性能的影响。此外，该数据集还为多说话人语音识别和跨领域语音识别研究提供了丰富的数据支持，推动了语音识别技术的进一步发展。

衍生相关工作

基于该数据集，研究者们开发了多种先进的ASR模型，尤其是基于Transformer架构的预训练模型。这些模型在德语语音识别任务中表现出色，推动了语音识别技术的进步。此外，该数据集还衍生了一系列关于多说话人语音识别、跨领域语音识别和语音对齐技术的研究工作，为语音识别领域的学术研究提供了重要的数据支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集