IndicTTS23

Name: IndicTTS23
Creator: 印度理工学院马德拉斯分校
Published: 2024-10-18 14:19:27
License: 暂无描述

arXiv2024-10-18 更新2024-10-22 收录

下载链接：

https://www.iitm.ac.in/donlab/tts/

下载链接

链接失效反馈

官方服务：

资源简介：

IndicTTS23数据集是由印度理工学院马德拉斯分校创建的，旨在为22种印度语言提供高质量的文本到语音合成数据。该数据集包含880小时的录音数据，目前已收集765小时，涵盖了男性和女性的专业录音，以及相应的英语录音。数据集的创建过程包括文本收集、语音录制和质量控制，确保数据的纯净性和准确性。该数据集主要用于训练高质量的TTS系统，特别是在印度语言的TTS合成中，旨在解决现有数据集质量不高的问题。

IndicTTS23 was developed by the Indian Institute of Technology Madras, with the goal of supplying high-quality text-to-speech (TTS) synthesis data for 22 Indian languages. The dataset has a total planned duration of 880 hours of recorded audio, 765 hours of which have been collected to date. It includes professional speech recordings from both male and female speakers, as well as corresponding English recordings. The dataset creation pipeline encompasses three core steps: text collection, speech recording, and quality control, to ensure the purity and accuracy of the data. This dataset is primarily designed for training high-quality TTS systems, particularly for TTS synthesis tasks focused on Indian languages, with the aim of addressing the substandard quality issue of existing relevant datasets.

提供机构：

印度理工学院马德拉斯分校

创建时间：

2024-10-18

搜集汇总

数据集介绍

构建方式

IndicTTS23数据集的构建基于一个统一的框架，旨在为22种印度语言和印度英语开发高质量的文本到语音合成系统。数据集的收集过程包括录音脚本的编写、专业发音人的选择、录音环境的控制、语音录制以及质量控制。所有语言的录音均在专业录音棚中进行，采样率为48 kHz，精度为16位。发音人需经过严格筛选，确保其发音质量和适应性。录音过程中，发音人需保持恒定的语速和音节率，并定期休息以确保录音质量。录音后，数据需经过语言专家的手动验证，确保语音质量和发音准确性。

特点

IndicTTS23数据集的一个显著特点是其数据纯净度，这使得即使在小规模数据集的情况下，也能构建出高质量的文本到语音合成系统。此外，数据集还包括了一定量的表达性语音数据，以支持自然对话风格的语音合成。数据集的文本选择和编辑过程也非常细致，确保了文本的多样性和音节覆盖率，同时避免了过长单词和弱音节的出现。

使用方法

IndicTTS23数据集适用于训练各种文本到语音合成模型，包括基于单元选择的合成、隐马尔可夫模型和端到端架构。使用者可以通过该数据集训练模型，以生成高质量的语音合成系统。数据集的纯净度和高质量录音使其特别适合于需要高保真语音合成的应用场景。此外，数据集中的表达性语音数据也可用于微调模型，以生成更加自然和情感丰富的语音输出。

背景与挑战

背景概述

IndicTTS23数据集是由印度理工学院马德拉斯分校（IIT Madras）的Sujitha Sathiyamoorthy、N Mohana、Anusha Prakash和Hema A Murthy等研究人员主导开发的，旨在为22种印度语言提供高质量的文本到语音合成（TTS）训练数据。该数据集的构建始于对现有TTS系统在印度语言资源匮乏问题上的关注，特别是缺乏统一的数据收集协议。通过长达15年的努力，研究团队不仅收集了大量的语音数据，还开发了一套统一的数据收集框架，确保数据的高纯度和高质量，从而能够支持从单元选择合成、隐马尔可夫模型到端到端架构等多种TTS系统的训练。IndicTTS23数据集的推出，标志着印度语言TTS系统开发进入了一个新的阶段，为学术界和工业界提供了宝贵的资源。

当前挑战

IndicTTS23数据集在构建过程中面临多项挑战。首先，印度语言的多样性和复杂性使得数据收集和标准化变得尤为困难。其次，确保语音数据的高质量和纯净度，需要专业的录音环境和严格的质检流程，这增加了数据收集的成本和时间。此外，不同语言之间的资源不均衡，尤其是低资源语言的数据收集更为困难。最后，尽管现有的TTS系统在阅读语音方面表现良好，但在自然对话语音合成方面仍存在显著差距，这要求数据集不仅包含标准阅读语音，还需涵盖表达丰富的对话语音。这些挑战共同构成了IndicTTS23数据集开发过程中的主要障碍。

常用场景

经典使用场景

IndicTTS23数据集在文本到语音合成（TTS）领域中扮演着至关重要的角色，特别是在为22种印度语言构建高质量的TTS系统方面。该数据集通过提供40小时的单一说话人录音数据，涵盖了从中性到表达性语音的多种风格，为研究人员提供了丰富的训练资源。其经典使用场景包括但不限于：利用这些数据训练端到端TTS模型，如FastSpeech2和HiFi-GAN，以生成自然流畅的语音输出；以及在多语言TTS系统中，作为基准数据集进行性能评估和模型优化。

解决学术问题

IndicTTS23数据集解决了印度语言TTS研究中长期存在的数据稀缺和高误差率问题。通过提供高质量的录音和精确的转录文本，该数据集显著提升了TTS系统的合成质量，减少了语音合成中的误差。此外，其统一的收集协议确保了数据的一致性和可比性，为跨语言的TTS系统开发提供了坚实的基础。这一贡献不仅推动了印度语言TTS技术的发展，也为全球低资源语言的语音合成研究提供了宝贵的参考。

衍生相关工作

IndicTTS23数据集的发布激发了一系列相关研究工作，推动了印度语言TTS技术的进步。例如，基于该数据集，研究人员开发了多种先进的TTS模型，如FastSpeech2+HiFi-GAN，显著提升了语音合成的自然度和清晰度。同时，该数据集也促进了多语言和多风格TTS系统的研究，如表达性语音合成和对话式TTS系统。此外，IndicTTS23还为其他低资源语言的TTS数据收集和处理提供了方法论参考，促进了全球范围内语音合成技术的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集