IndicVoices-R

Name: IndicVoices-R
Creator: 印度理工学院马德拉斯分校计算机科学与工程系
Published: 2024-10-07 13:29:01
License: 暂无描述

arXiv2024-10-07 更新2024-09-11 收录

下载链接：

https://github.com/AI4Bharat/IndicVoices-R

下载链接

链接失效反馈

官方服务：

资源简介：

IndicVoices-R是由印度理工学院马德拉斯分校计算机科学与工程系创建的，是目前最大的多语言多说话者印度TTS数据集，涵盖了22种印度语言，包含1,704小时的高质量语音数据，来自10,496名说话者。数据集主要由即兴录音组成，确保了语音的自然性。创建过程中，通过去噪和语音增强模型对原始ASR数据进行处理，以提高语音质量。该数据集旨在解决印度语言TTS系统中数据稀缺和高多样性需求的问题，支持零样本、少样本和多样本说话者泛化能力的评估。

IndicVoices-R was developed by the Department of Computer Science and Engineering, Indian Institute of Technology Madras. It is currently the largest multilingual, multi-speaker Indian TTS dataset, covering 22 Indian languages and containing 1,704 hours of high-quality speech data from 10,496 speakers. The dataset primarily comprises spontaneous recordings to ensure speech naturalness. During its development, raw ASR data was processed via denoising and speech enhancement models to enhance audio quality. This dataset is designed to address the issues of data scarcity and high diversity requirements in Indian language TTS systems, and supports evaluation of zero-shot, few-shot, and multi-sample speaker generalization capabilities.

提供机构：

印度理工学院马德拉斯分校计算机科学与工程系

创建时间：

2024-09-09

原始信息汇总

IndicVoices-R: 大规模多语言多说话人语音数据集，用于扩展印度TTS

摘要

IndicVoices-R (IV-R) 是基于ASR数据集生成的最大规模多语言印度TTS数据集，包含1,704小时的高质量语音数据，涵盖22种印度语言，来自10,496名说话人。IV-R数据集的质量与LJSpeech、LibriTTS和IndicTTS等黄金标准TTS数据集相当。此外，IV-R引入了IV-R基准，用于评估TTS模型在印度语音上的零样本、少样本和多样本说话人泛化能力，确保年龄、性别和风格的多样性。

资源

数据集下载地址：https://ai4bharat.iitm.ac.in/indicvoices_r/

清单格式

filename: 指向wav文件的路径
text: 音频的转录文本，使用标准化版本
duration: 音频时长（秒）
lang: 语言的ISO代码
samples: 样本数量
verbatim: 转录文本的逐字版本
normalized: 转录文本的标准化版本
speaker_id: 唯一的说话人ID
scenario: 数据类型
task_name: 任务名称
gender: 说话人性别
age_group: 说话人年龄组
job_type: 说话人职业类型
qualification: 说话人学历
area: 说话人所属地区
district: 说话人所属区
state: 说话人所属州
occupation: 说话人职业
verification_report: 由QA团队提供的验证标记
chunk_name: 音频块名称
snr: 信噪比
c50: C50值
utterance_pitch_mean: 语音音调均值
utterance_pitch_std: 语音音调标准差
cer: 字符错误率

许可证

CC-BY-4.0

搜集汇总

数据集介绍

构建方式

IndicVoices-R数据集的构建基于现有的自动语音识别（ASR）数据集IndicVoices，通过一系列复杂的数据处理步骤实现。首先，对原始音频进行预处理，筛选出高质量的录音样本。随后，利用先进的音频源分离和降噪模型HTDemucs对音频进行去噪处理，以消除背景噪音和杂音。接着，通过VoiceFixer进一步减少音频中的混响和数字伪影，确保音频的清晰度和可理解性。最后，使用DeepFilterNet3模型去除可能引入的数字伪影，并通过严格的音频质量筛选标准，确保最终数据集的高质量。

特点

IndicVoices-R数据集的主要特点在于其广泛的语言覆盖和丰富的说话人多样性。该数据集涵盖了22种印度官方语言，包含超过10,496名说话人的录音，提供了超过1,704小时的语音数据。此外，数据集中的录音主要为即兴发言，捕捉了自然语言的细微差别和表达方式，确保了合成语音的自然度。数据集的音频质量与现有的高质量TTS数据集相当，使其成为训练TTS系统的理想选择。

使用方法

IndicVoices-R数据集适用于多种TTS模型的训练和评估。用户可以通过该数据集训练多语言、多说话人的TTS系统，以实现零样本和少样本的说话人泛化能力。数据集还提供了详细的元数据文件，方便用户进行数据分析和模型优化。此外，数据集的开源性质使得研究人员和开发者可以自由访问和使用，促进了印度语言TTS技术的研究和应用。

背景与挑战

背景概述

IndicVoices-R数据集由AI4Bharat团队在印度理工学院马德拉斯分校开发，旨在解决印度语言文本到语音（TTS）合成中高质量数据稀缺的问题。该数据集创建于2024年，通过利用现有的自动语音识别（ASR）数据集，特别是IndicVoices，结合跨语言的降噪和语音增强模型，生成了1,704小时的高质量语音数据，涵盖22种印度语言。这一数据集的推出填补了印度语言TTS领域的空白，为研究者提供了丰富的资源，以开发更具自然性和多样性的语音合成系统。

当前挑战

IndicVoices-R数据集在构建过程中面临多项挑战。首先，印度语言的高质量语音数据稀缺，尤其是在LibriVox或YouTube等平台上缺乏专业级录音。其次，现有的印度语言TTS数据集覆盖面有限，仅涵盖14种印度官方语言，且每个语言仅有1-2名说话者，主要为朗读录音，缺乏韵律和表达。此外，从网络资源中挖掘TTS数据面临数据质量低、信号噪声比低等问题。IndicVoices-R通过创新的数据处理管道，成功克服了这些挑战，但其仍需面对数据多样性和质量持续提升的挑战。

常用场景

经典使用场景

IndicVoices-R数据集在印度语言的文本到语音（TTS）合成领域中扮演着至关重要的角色。其经典使用场景包括训练大规模多语言多说话者的TTS模型，以实现零样本和少样本的说话者泛化能力。通过结合高质量的印度语言TTS数据和现有的英语预训练模型，IndicVoices-R能够显著提升模型在印度语言中的表现，尤其是在处理多样化的说话者和语言风格时。

实际应用

在实际应用中，IndicVoices-R数据集被广泛用于构建和优化印度语言的语音助手、语音导航系统和教育工具等。其多语言和多说话者的特性使得这些应用能够更好地适应不同地区和用户的需求，提供更加个性化和自然的语音交互体验。此外，该数据集还支持开发跨语言的语音识别和合成系统，进一步推动了多语言环境的语音技术应用。

衍生相关工作

IndicVoices-R数据集的发布催生了一系列相关研究和工作，包括对多语言TTS模型的进一步优化和扩展，以及对零样本和少样本学习能力的深入研究。此外，该数据集还激发了对印度语言语音数据的更多挖掘和利用，推动了相关领域的技术进步。例如，基于IndicVoices-R的研究成果已经被应用于多个开源项目和商业产品中，显著提升了印度语言语音技术的普及和应用水平。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集