five

Irish Language TTS Dataset

收藏
github2024-03-03 更新2024-05-31 收录
下载链接:
https://github.com/madhusshivakumar/TTS_Dataset_generator
下载链接
链接失效反馈
官方服务:
资源简介:
该工具旨在为任何所需语言创建类似于LibriTTS的数据集。本仓库展示了为爱尔兰语创建数据集的过程,包括音频采集、文本获取、音频与文本匹配以及文本规范化等步骤。

This tool is designed to create datasets similar to LibriTTS for any desired language. The repository demonstrates the process of creating a dataset for the Irish language, including steps such as audio collection, text acquisition, audio-text alignment, and text normalization.
创建时间:
2024-02-28
原始信息汇总

TTS Dataset Creator for Any Language

数据集创建步骤

音频创建

  • 使用YouTube API V3爬取特定视频。

转录获取

  • 使用youtube_transcript_api获取转录文本。

文本与音频匹配

  • 获取转录文本后,确认语言为爱尔兰语(Gaeilge),使用关键词ga
  • 正确获取转录文本后,音频被分割并与转录文本对齐,生成音频和文本文件,文件名对应每个片段。

文本规范化

  • 移除说话者标识(如Speaker 1:)。
  • 消除时间戳(如[00:00:00])。
  • 排除非言语声音(如[Applause])。
  • 忽略圆括号内的文本。
  • 排除花括号内的文本。
  • 移除大括号内的文本。
  • 消除多余的空格。

输出文件结构

  • 输出
    • video_ID
      • segments
        • segment_0.mp3
        • segment_0.txt
        • segment_0_normalized.txt
        • ...
      • audio.mp4
    • video_ID
    • video_ID
搜集汇总
数据集介绍
main_image_url
构建方式
Irish Language TTS数据集的构建过程体现了多模态数据处理的精细与高效。通过YouTube API V3,研究者从特定视频中提取音频数据,并利用`youtube_transcript_api`获取对应的文本转录。为确保数据质量,转录文本经过语言确认(如爱尔兰语使用`ga`标识),并通过音频分段与文本对齐,生成对应的音频和文本文件。随后,文本数据经过规范化处理,去除无关信息如说话者标识、时间戳、非语言声音等,确保数据的纯净与一致性。
特点
该数据集以其高质量的多模态数据为显著特点,音频与文本的精确对齐为语音合成任务提供了坚实基础。数据集涵盖了爱尔兰语的丰富语音样本,文本经过严格的规范化处理,确保了数据的可用性与一致性。此外,数据集的构建过程具有高度可扩展性,能够适应不同语言的语音合成需求,为多语言语音技术研究提供了宝贵资源。
使用方法
使用Irish Language TTS数据集时,用户需首先下载代码库并安装依赖包,随后通过YouTube API V3获取API密钥并更新至`main.py`文件中。运行`main.py`脚本后,数据集将自动生成并保存至指定输出文件夹,包含音频文件、原始文本及规范化文本。用户可根据需求直接使用这些数据,或进一步处理以适配特定语音合成模型,为爱尔兰语语音技术研究提供支持。
背景与挑战
背景概述
Irish Language TTS Dataset 是一个专注于爱尔兰语(Gaeilge)的文本到语音(TTS)数据集,旨在为爱尔兰语的语音合成研究提供高质量的数据支持。该数据集的创建灵感来源于LibriTTS数据集,后者在英语语音合成领域取得了显著的成功。通过利用YouTube API V3和`youtube_transcript_api`工具,研究人员能够从特定视频中提取音频和对应的文本转录,并进行精确的对齐与规范化处理。这一数据集不仅为爱尔兰语的语音合成技术提供了基础数据,还为多语言语音合成研究开辟了新的可能性。
当前挑战
在构建Irish Language TTS Dataset的过程中,研究人员面临了多重挑战。首先,爱尔兰语作为一种相对小众的语言,其在线资源的丰富度和质量有限,这增加了数据采集的难度。其次,音频与文本的精确对齐需要高度精细的处理,尤其是在处理多说话人、背景噪音和非语言声音时,如何确保数据的纯净度成为一大难题。此外,文本的规范化处理也面临挑战,例如如何有效去除说话人标识、时间戳和非语言符号,同时保留语义完整性。这些挑战不仅考验了数据处理的技术能力,也对数据集的最终质量提出了严格要求。
常用场景
经典使用场景
Irish Language TTS Dataset在语音合成领域具有重要应用,特别是在爱尔兰语(Gaeilge)的文本到语音转换任务中。该数据集通过从YouTube视频中提取音频和转录文本,并进行精确的匹配和文本规范化处理,为研究人员提供了一个高质量的爱尔兰语语音合成数据集。其经典使用场景包括训练和评估爱尔兰语TTS模型,帮助提升语音合成的自然度和准确性。
衍生相关工作
基于Irish Language TTS Dataset,研究人员已经开发了多种爱尔兰语语音合成模型,并在语音合成质量评估中取得了显著进展。此外,该数据集还激发了其他低资源语言语音合成数据集的研究,推动了多语言语音合成技术的发展。相关研究进一步优化了文本与音频的对齐算法,提升了数据集的可用性和扩展性。
数据集最近研究
最新研究方向
在语音合成技术领域,爱尔兰语TTS数据集的构建为低资源语言的语音合成研究提供了新的视角。近年来,随着深度学习技术的快速发展,语音合成技术在主流语言中取得了显著进展,然而低资源语言如爱尔兰语的研究仍面临数据匮乏的挑战。该数据集通过利用YouTube API和转录工具,实现了音频与文本的自动对齐和规范化处理,为爱尔兰语的语音合成模型训练提供了高质量的数据支持。这一研究不仅推动了爱尔兰语在语音合成领域的应用,也为其他低资源语言的语音合成研究提供了可借鉴的技术路径。随着多语言语音合成需求的增长,该数据集的研究方向将进一步拓展,探索更高效的跨语言迁移学习方法,以提升低资源语言语音合成的性能与自然度。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作