Irish Language TTS Dataset

github2024-03-03 更新2024-05-31 收录

下载链接：

https://github.com/madhusshivakumar/TTS_Dataset_generator

下载链接

链接失效反馈

官方服务：

资源简介：

该工具旨在为任何所需语言创建类似于LibriTTS的数据集。本仓库展示了为爱尔兰语创建数据集的过程，包括音频采集、文本获取、音频与文本匹配以及文本规范化等步骤。

This tool is designed to create datasets similar to LibriTTS for any desired language. The repository demonstrates the process of creating a dataset for the Irish language, including steps such as audio collection, text acquisition, audio-text alignment, and text normalization.

创建时间：

2024-02-28

原始信息汇总

TTS Dataset Creator for Any Language

数据集创建步骤

音频创建

使用YouTube API V3爬取特定视频。

转录获取

使用youtube_transcript_api获取转录文本。

文本与音频匹配

获取转录文本后，确认语言为爱尔兰语(Gaeilge)，使用关键词ga。
正确获取转录文本后，音频被分割并与转录文本对齐，生成音频和文本文件，文件名对应每个片段。

文本规范化

移除说话者标识（如Speaker 1:）。
消除时间戳（如[00:00:00]）。
排除非言语声音（如[Applause]）。
忽略圆括号内的文本。
排除花括号内的文本。
移除大括号内的文本。
消除多余的空格。

输出文件结构

输出
- video_ID
  - segments
    - segment_0.mp3
    - segment_0.txt
    - segment_0_normalized.txt
    - ...
  - audio.mp4
- video_ID
- video_ID

搜集汇总

数据集介绍

构建方式

Irish Language TTS数据集的构建过程体现了多模态数据处理的精细与高效。通过YouTube API V3，研究者从特定视频中提取音频数据，并利用`youtube_transcript_api`获取对应的文本转录。为确保数据质量，转录文本经过语言确认（如爱尔兰语使用`ga`标识），并通过音频分段与文本对齐，生成对应的音频和文本文件。随后，文本数据经过规范化处理，去除无关信息如说话者标识、时间戳、非语言声音等，确保数据的纯净与一致性。

特点

该数据集以其高质量的多模态数据为显著特点，音频与文本的精确对齐为语音合成任务提供了坚实基础。数据集涵盖了爱尔兰语的丰富语音样本，文本经过严格的规范化处理，确保了数据的可用性与一致性。此外，数据集的构建过程具有高度可扩展性，能够适应不同语言的语音合成需求，为多语言语音技术研究提供了宝贵资源。

使用方法

使用Irish Language TTS数据集时，用户需首先下载代码库并安装依赖包，随后通过YouTube API V3获取API密钥并更新至`main.py`文件中。运行`main.py`脚本后，数据集将自动生成并保存至指定输出文件夹，包含音频文件、原始文本及规范化文本。用户可根据需求直接使用这些数据，或进一步处理以适配特定语音合成模型，为爱尔兰语语音技术研究提供支持。

背景与挑战

背景概述

Irish Language TTS Dataset 是一个专注于爱尔兰语（Gaeilge）的文本到语音（TTS）数据集，旨在为爱尔兰语的语音合成研究提供高质量的数据支持。该数据集的创建灵感来源于LibriTTS数据集，后者在英语语音合成领域取得了显著的成功。通过利用YouTube API V3和`youtube_transcript_api`工具，研究人员能够从特定视频中提取音频和对应的文本转录，并进行精确的对齐与规范化处理。这一数据集不仅为爱尔兰语的语音合成技术提供了基础数据，还为多语言语音合成研究开辟了新的可能性。

当前挑战

在构建Irish Language TTS Dataset的过程中，研究人员面临了多重挑战。首先，爱尔兰语作为一种相对小众的语言，其在线资源的丰富度和质量有限，这增加了数据采集的难度。其次，音频与文本的精确对齐需要高度精细的处理，尤其是在处理多说话人、背景噪音和非语言声音时，如何确保数据的纯净度成为一大难题。此外，文本的规范化处理也面临挑战，例如如何有效去除说话人标识、时间戳和非语言符号，同时保留语义完整性。这些挑战不仅考验了数据处理的技术能力，也对数据集的最终质量提出了严格要求。

常用场景

经典使用场景

Irish Language TTS Dataset在语音合成领域具有重要应用，特别是在爱尔兰语（Gaeilge）的文本到语音转换任务中。该数据集通过从YouTube视频中提取音频和转录文本，并进行精确的匹配和文本规范化处理，为研究人员提供了一个高质量的爱尔兰语语音合成数据集。其经典使用场景包括训练和评估爱尔兰语TTS模型，帮助提升语音合成的自然度和准确性。

衍生相关工作

基于Irish Language TTS Dataset，研究人员已经开发了多种爱尔兰语语音合成模型，并在语音合成质量评估中取得了显著进展。此外，该数据集还激发了其他低资源语言语音合成数据集的研究，推动了多语言语音合成技术的发展。相关研究进一步优化了文本与音频的对齐算法，提升了数据集的可用性和扩展性。

数据集最近研究