Marylux-648-TTS-Corpus

github2022-05-03 更新2024-05-31 收录

下载链接：

https://github.com/mbarnig/Marylux-648-TTS-Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

Marylux-648-TTS-Corpus是一个多语言（卢森堡语、法语、德语）的语音数据库，用于MaryTTS项目。该数据集包含648个样本，经过优化处理，包括音频格式转换、静音移除、音量标准化等，以适应深度机器学习系统的训练。

The Marylux-648-TTS-Corpus is a multilingual (Luxembourgish, French, German) speech database designed for the MaryTTS project. This dataset comprises 648 samples that have been optimized through processes such as audio format conversion, silence removal, and volume normalization to facilitate training in deep machine learning systems.

创建时间：

2021-12-12

原始信息汇总

数据集概述

数据集名称

Marylux-648-TTS-Corpus

数据集描述

该数据集由Judith Manzoni于2014年在萨尔兰大学录制，包含卢森堡语、法语和德语的多语言语音数据库，用于MaryTTS项目。音频数据以单个FLAC文件提供，采样频率为48 kHz，每样本16位。转录数据以单个YAML文件提供。数据集根据Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License授权。

数据集内容

数据集包含以下转录音频片段：

Nordwand an dSonn: 12
卢森堡语Wikipedia语句: 584
卢森堡语单词: 52
德语Wikipedia语句: 198
法语Wikipedia语句: 255

数据集优化

数据集经过优化，以创建卢森堡语合成语音，通过训练基于神经网络的深度机器学习系统。优化步骤包括：

移除12个北风样本用于推理测试
音频采样率从48000 Hz降至22050 Hz，格式从FLAC转换为WAV
移除音频片段开始和结束的静音
音频片段的响度设置为-25 dB
将超过10秒的音频片段通过分割和重命名进行缩减
将单个单词的片段组合成每个包含4个单词的样本，单词间用逗号分隔
移除带有噪音或错误发音的片段
手动检查并修正所有剩余片段的转录
在最终质量检查后，移除音频和文本长度标准差大于0.8的样本

数据集结果

优化后的数据集包含648个样本，称为Marylux-648-TTS-Corpus。

数据集转换步骤

采样率和格式转换：使用基于librosa的resample.py脚本进行转换。
静音移除：使用sox工具移除音频片段的静音部分。
响度设置：使用loudness.py脚本将音频片段的响度标准化至-25 dB。
音频分割：手动在Audacity中进行音频分割。
单词组合：手动在Audacity和文本编辑器中组合单词片段。
噪音移除：使用Audacity的噪音减少插件手动移除噪音。
文本校正：使用Audacity和文本编辑器检查并修正文本。
质量检查：使用AnalyzeDataset.ipynb笔记本进行自动质量检查。

数据集语音学处理

国际音标：使用Peter Gilles开发的自动音标转录工具进行音标转录。
卢森堡语音标器：eSpeak-NG和Rhasspy-Gruut集成卢森堡语支持。

数据集文本格式

文本样本以metadata.csv文件格式存储，每行包含三个字段，使用管道符号|分隔。

搜集汇总

数据集介绍

构建方式

Marylux-648-TTS-Corpus数据集的构建基于2014年由Judith Manzoni在萨尔兰大学录制的多语言卢森堡语/法语/德语语音数据库。原始音频数据以48 kHz采样频率和16位采样深度存储为FLAC格式，转录文本则以YAML文件形式提供。通过对原始数据进行一系列优化处理，包括降采样、格式转换、静音去除、音量标准化、音频分割、文本校正等步骤，最终生成了包含648个样本的高质量语音数据集。

使用方法

Marylux-648-TTS-Corpus数据集适用于语音合成（TTS）模型的训练与评估。用户可通过加载`metadata.csv`文件获取音频文件与对应文本的映射关系。数据集支持多种深度学习框架，用户可利用提供的音素标注信息进行卢森堡语语音合成模型的训练。此外，数据集还提供了详细的音素转换工具和卢森堡语词典，便于用户进行语音合成的前端处理。通过结合eSpeak-NG或Gruut等音素转换工具，用户可进一步扩展数据集的应用范围。

背景与挑战

背景概述

Marylux-648-TTS-Corpus数据集由Judith Manzoni于2014年在萨尔兰大学录制，旨在为MaryTTS项目提供卢森堡语、法语和德语的多语言语音数据库。该数据集包含648个经过优化的语音样本，主要用于训练基于神经网络的深度学习系统，以生成卢森堡语的合成语音。数据集的核心研究问题在于如何通过高质量的语音数据提升多语言文本到语音（TTS）系统的性能，特别是在卢森堡语这种资源较少的语言上。该数据集对语音合成领域的研究具有重要意义，尤其是在多语言语音合成和低资源语言处理方面。

当前挑战

Marylux-648-TTS-Corpus数据集在构建过程中面临多项挑战。首先，原始音频数据需要经过复杂的预处理，包括降采样、格式转换、静音去除、音量标准化等，以确保数据质量符合深度学习模型的要求。其次，由于卢森堡语的语音资源相对稀缺，数据集的构建需要依赖手动校正和优化，特别是在文本与音频的对齐、噪声去除以及发音错误的修正方面。此外，数据集的构建还涉及对长音频的分割和单词语音的拼接，以适配TTS模型的训练需求。这些挑战不仅要求高度的技术处理能力，还需要对卢森堡语语音特性的深入理解。

常用场景

经典使用场景

Marylux-648-TTS-Corpus数据集在语音合成（TTS）领域中被广泛用于训练和评估多语言语音合成模型。该数据集包含了卢森堡语、法语和德语的语音样本，特别适合用于开发卢森堡语的合成语音系统。通过深度学习技术，研究人员可以利用该数据集训练神经网络模型，生成高质量的卢森堡语语音。

解决学术问题

Marylux-648-TTS-Corpus解决了多语言语音合成中的关键问题，尤其是在卢森堡语这一低资源语言上的语音合成挑战。通过提供高质量的语音样本和精确的文本转录，该数据集为研究人员提供了可靠的训练数据，帮助他们在低资源语言环境下开发出高效的TTS模型。此外，该数据集还解决了语音合成中常见的噪声、音频长度不一致等问题，提升了模型的鲁棒性和生成语音的自然度。

实际应用

在实际应用中，Marylux-648-TTS-Corpus被广泛用于开发多语言语音助手、语音导航系统以及教育领域的语音学习工具。特别是在卢森堡，该数据集的应用有助于推动本地语言的数字化进程，为卢森堡语的语音合成技术提供了坚实的基础。此外，该数据集还可用于跨语言语音合成研究，帮助开发多语言语音合成系统，提升语音助手在多语言环境中的表现。

数据集最近研究