LibriTTS Corpus

github2024-05-07 更新2024-05-31 收录

下载链接：

https://github.com/kan-bayashi/LibriTTSCorpusLabel

下载链接

链接失效反馈

官方服务：

资源简介：

本仓库提供LibriTTS语料库的词/音素对齐标签。这些标签文件由Montreal-Forced-Aligner创建，用于去除端到端文本到语音模型训练中的静音部分。

This repository provides word/phoneme alignment labels for the LibriTTS corpus. These label files, created by the Montreal-Forced-Aligner, are utilized to eliminate silent segments in the training of end-to-end text-to-speech models.

创建时间：

2020-03-14

原始信息汇总

数据集概述

数据集名称

Word / phone alignment label for LibriTTS Corpus

数据集内容

该数据集提供LibriTTS语料库的单词和音素对齐标签。标签文件由Montreal-Forced-Aligner使用预训练模型创建。

数据结构

数据集包含两种对齐文件格式：

.lab 格式，使用 " " 分隔，分别提供 phone 和 word 对齐信息。
.TextGrid 格式，包含 phone 和 word 对齐信息于单一文件中，为MFA的原始输出。

文件组织

lab
- phone
  - dev-clean, dev-other, test-clean, test-other, train-clean-100, train-clean-360, train-other-500
- word
  - dev-clean, dev-other, test-clean, test-other, train-clean-100, train-clean-360, train-other-500
textgrid
- dev-clean, dev-other, test-clean, test-other, train-clean-100, train-clean-360, train-other-500

标签格式

Word label

0.0 0.03 0.03 0.4 matthew 0.4 0.84 cuthbert 0.84 0.87 0.87 0.99 is 0.99 1.59 surprised 1.59 1.67
Phone label

0.0 0.03 sil 0.03 0.13 M 0.13 0.23 AE1 0.23 0.28 TH 0.28 0.34 Y 0.34 0.4 UW0 0.4 0.48 K 0.48 0.56 AH1 0.56 0.65 TH 0.65 0.71 B 0.71 0.8 ER0 0.8 0.84 T 0.84 0.87 sp 0.87 0.95 IH1 0.95 0.99 Z 0.99 1.05 S 1.05 1.1 AH0 1.1 1.17 P 1.17 1.25 R 1.25 1.38 AY1 1.38 1.5 Z 1.5 1.59 D 1.59 1.65 sp 1.65 1.67
TextGrid

File type = "ooTextFile" Object class = "TextGrid"

xmin = 0.0 xmax = 1.67 tiers? <exists> size = 2 item []: item [1]: class = "IntervalTier" name = "words" xmin = 0.0 xmax = 1.67 intervals: size = 7 intervals [1]: xmin = 0.0 xmax = 0.030 text = "" intervals [2]: xmin = 0.030 xmax = 0.400 text = "matthew" intervals [3]: xmin = 0.400 xmax = 0.840 text = "cuthbert" intervals [4]: xmin = 0.840 xmax = 0.870 text = "" intervals [5]: xmin = 0.870 xmax = 0.990 text = "is" intervals [6]: xmin = 0.990 xmax = 1.590 text = "surprised" intervals [7]: xmin = 1.590 xmax = 1.67 text = "" item [2]: class = "IntervalTier" name = "phones" xmin = 0.0 xmax = 1.67 intervals: size = 24 intervals [1]: xmin = 0.000 xmax = 0.030 text = "sil" intervals [2]: xmin = 0.030 xmax = 0.130 text = "M" intervals [3]: xmin = 0.130 xmax = 0.230 text = "AE1" intervals [4]: xmin = 0.230 xmax = 0.280 text = "TH" intervals [5]: xmin = 0.280 xmax = 0.340 text = "Y" intervals [6]: xmin = 0.340 xmax = 0.400 text = "UW0" intervals [7]: xmin = 0.400 xmax = 0.480 text = "K" intervals [8]: xmin = 0.480 xmax = 0.560 text = "AH1" intervals [9]: xmin = 0.560 xmax = 0.650 text = "TH" intervals [10]: xmin = 0.650 xmax = 0.710 text = "B" intervals [11]: xmin = 0.710 xmax = 0.800 text = "ER0" intervals [12]: xmin = 0.800 xmax = 0.840 text = "T" intervals [13]: xmin = 0.840 xmax = 0.870 text = "sp" intervals [14]: xmin = 0.870 xmax = 0.950 text = "IH1" intervals [15]: xmin = 0.950 xmax = 0.990 text = "Z" intervals [16]: xmin = 0.990 xmax = 1.050 text = "S" intervals [17]: xmin = 1.050 xmax = 1.100 text = "AH0" intervals [18]: xmin = 1.100 xmax = 1.170 text = "P" intervals [19]: xmin = 1.170 xmax = 1.250 text = "R" intervals [20]: xmin = 1.250 xmax = 1.380 text = "AY1" intervals [21]: xmin = 1.380 xmax = 1.500 text = "Z" intervals [22]: xmin = 1.500 xmax = 1.590 text = "D" intervals [23]: xmin = 1.590 xmax = 1.650 text = "sp" intervals [24]: xmin = 1.650 xmax = 1.67 text = ""

缺失文件

由于对齐失败，部分标签缺失（1,255个文件，约占0.4%）。请检查missing_files.txt。

搜集汇总

数据集介绍

构建方式

LibriTTS Corpus数据集的构建基于Montreal-Forced-Aligner工具，通过预训练模型生成单词和音素的强制对齐标签。这些标签以两种格式存储：一种是`.lab`格式，使用制表符分隔，另一种是`.TextGrid`格式，包含原始的MFA输出。数据集涵盖了多个子集，如dev-clean、train-clean-100等，确保了数据的多样性和广泛性。

特点

LibriTTS Corpus数据集的显著特点在于其提供了精细的单词和音素对齐信息，这对于端到端语音合成模型的训练尤为关键。数据集结构清晰，包含两种对齐文件格式，便于不同应用场景下的使用。此外，尽管存在少量对齐失败的情况，但整体数据集的完整性较高，覆盖了多种语音场景。

使用方法

使用LibriTTS Corpus数据集时，用户首先需通过Git克隆仓库并解压相关文件。数据集提供了两种对齐文件格式：`.lab`和`.TextGrid`，用户可根据需求选择合适的格式进行处理。对于缺失的文件，可通过`missing_files.txt`进行检查。该数据集适用于语音合成、语音识别等多种语音处理任务，尤其适合需要精细对齐信息的模型训练。

背景与挑战

背景概述

LibriTTS Corpus是一个用于语音合成（Text-to-Speech, TTS）研究的大规模语音数据集，由Montreal Institute for Learning Algorithms（MILA）的研究团队于2019年发布。该数据集的核心研究问题是如何为端到端语音合成模型提供高质量的语音数据和精确的词/音素对齐标注。LibriTTS Corpus的发布极大地推动了语音合成领域的研究进展，尤其是在提高合成语音的自然度和准确性方面。通过提供多样的语音数据和详细的标注，该数据集为研究人员提供了一个强大的工具，用于训练和评估各种语音合成模型。

当前挑战

LibriTTS Corpus在构建过程中面临了多个挑战。首先，生成精确的词/音素对齐标注是一个复杂且耗时的任务，尤其是在处理大规模数据时。尽管使用了Montreal-Forced-Aligner工具，但仍然存在部分对齐失败的情况，导致约0.4%的文件缺失。其次，数据集的多样性和规模使得数据处理和存储成为一个挑战，尤其是在确保数据质量和一致性方面。此外，如何有效地利用这些标注数据来训练端到端语音合成模型，也是一个需要深入研究的领域问题。

常用场景

经典使用场景

LibriTTS Corpus 数据集的经典使用场景主要集中在语音合成（TTS）领域，尤其是端到端（E2E）TTS模型的训练。通过提供精确的单词和音素对齐标签，该数据集能够帮助模型更好地理解语音与文本之间的映射关系，从而提升合成语音的自然度和准确性。

解决学术问题

LibriTTS Corpus 数据集解决了语音合成领域中语音与文本对齐的难题，尤其是在端到端模型训练中，如何准确地对齐语音片段与文本内容是一个关键问题。该数据集通过提供高质量的对齐标签，为研究者提供了一个可靠的基准，推动了语音合成技术的进步。

衍生相关工作

基于 LibriTTS Corpus 数据集，许多研究工作得以展开，尤其是在语音合成和语音识别领域。例如，一些研究者利用该数据集开发了新的端到端语音合成模型，提升了合成语音的质量；另一些研究则利用其对齐标签进行语音识别的改进，进一步推动了相关技术的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集