IndicVoices-R

github2024-06-13 更新2024-06-14 收录

下载链接：

https://github.com/AI4Bharat/IndicVoices-R

下载链接

链接失效反馈

官方服务：

资源简介：

IndicVoices-R是一个大规模的多语言多说话人语音数据集，旨在支持印度TTS（文本到语音）技术的扩展。该数据集包含1,704小时的高质量语音，来自10,496名说话人，涵盖22种印度语言，旨在提高TTS模型在印度语言中的零样本、少样本和多样本说话人泛化能力。

IndicVoices-R is a large-scale multilingual and multi-speaker speech dataset designed to support the expansion of Indian TTS (Text-to-Speech) technology. The dataset comprises 1,704 hours of high-quality speech from 10,496 speakers, covering 22 Indian languages, and aims to enhance the zero-shot, few-shot, and diverse-sample speaker generalization capabilities of TTS models in Indian languages.

创建时间：

2024-06-11

原始信息汇总

数据集概述

数据集名称

IndicVoices-R (IV-R)

数据集描述

IndicVoices-R 是针对印度语言的大规模多语种多说话人语音数据集，用于扩展印度文本到语音（TTS）合成。该数据集包含1,704小时的高质量语音，来自10,496名说话人，涵盖22种印度语言。IV-R 数据集的质量与 LJSpeech, LibriTTS, 和 IndicTTS 等黄金标准TTS数据集相匹配。

数据集用途

用于评估TTS模型在印度语音上的零样本、小样本和大样本说话人泛化能力。通过将英语预训练模型与高质量的IndicTTS和IV-R数据集结合进行微调，可以改善零样本说话人泛化能力。

数据集结构

数据集中的每个条目包含以下信息：

文件名：指向wav文件的路径
文本：音频的转录文本
持续时间：音频的持续时间（秒）
语言：ISO代码表示的语言
样本数：样本数量
逐字文本：转录文本的逐字版本
标准化文本：转录文本的标准化版本
说话人ID：唯一说话人标识
场景：数据类型
任务名称：任务描述
性别：说话人的性别
年龄组：说话人的年龄范围
职业类型：说话人的职业类型
学历：说话人的学历
地区：说话人所属地区
区：说话人所属区
州：说话人所属州
职业：说话人的职业
验证报告：质量保证团队提供的验证标记
块名称：音频块名称
SNR、C50、语音平均音高、语音音高标准差、字错误率等音频质量指标

数据集下载

数据集可通过以下链接下载：IndicVoices-R

许可协议

数据集遵循CC-BY-4.0许可协议。

搜集汇总

数据集介绍

构建方式

IndicVoices-R数据集的构建基于对现有大规模自动语音识别（ASR）数据集的增强处理。该数据集通过利用在英语数据上训练的去噪和语音增强模型，将其应用于印度语言，从而提升了低质量环境下的自然对话数据的质量。这一过程确保了从ASR数据集衍生出的IndicVoices-R数据集，包含了1,704小时的高质量语音数据，涵盖22种印度官方语言，由10,496名不同背景的演讲者提供。

使用方法

使用IndicVoices-R数据集时，用户可以通过提供的链接下载tar文件，并使用wget命令进行解压。数据集的元数据和音频文件通过清单文件进行组织，用户可以根据需要选择特定语言的数据进行下载和处理。此外，数据集还提供了详细的下载和解压脚本，支持多语言数据的并行下载，极大地简化了数据获取和处理的流程。

背景与挑战

背景概述

IndicVoices-R数据集由Ashwin Sankar及其团队于2024年创建，旨在解决印度语言文本到语音（TTS）合成领域中高质量数据稀缺的问题。该数据集包含了22种官方印度语言的高质量语音数据，总计超过1700小时，涵盖了超过10,000名说话者。通过利用跨语言的降噪和语音增强模型，IndicVoices-R从现有的自动语音识别（ASR）数据集中提取并生成了高质量的TTS训练数据。这一创新不仅填补了印度语言TTS数据集的空白，还为多语言和多说话者TTS模型的训练提供了宝贵的资源，显著推动了印度语言TTS技术的发展。

当前挑战

IndicVoices-R数据集在构建过程中面临了多重挑战。首先，印度语言的高质量语音数据稀缺，尤其是在LibriVox或YouTube等平台上缺乏手动字幕的数据。其次，从低质量环境中收集的自然对话数据需要通过复杂的降噪和语音增强技术进行处理，以确保生成数据的高质量。此外，数据集的多样性要求涵盖不同年龄、性别和风格的说话者，这增加了数据收集和处理的复杂性。最后，如何确保跨语言模型的泛化能力和零样本学习能力，也是该数据集在应用中需要解决的重要问题。

常用场景

经典使用场景

IndicVoices-R数据集在文本到语音（TTS）合成领域中展现了其经典应用场景。该数据集通过整合超过1700小时的高质量语音数据，涵盖22种印度官方语言，为多语言多说话者的TTS模型训练提供了丰富的资源。其核心应用在于通过大规模数据集的训练，显著提升TTS模型在印度语言中的语音合成质量，尤其是在零样本和少样本学习场景下，模型能够更好地泛化到新的说话者和语言风格。

解决学术问题

IndicVoices-R数据集解决了印度语言在TTS合成领域中高质量数据稀缺的学术问题。传统上，印度语言由于缺乏高质量的手动字幕数据，导致TTS模型在这些语言上的表现不佳。该数据集通过增强现有的自动语音识别（ASR）数据集，利用跨语言的降噪和语音增强模型，生成了高质量的TTS训练数据，填补了这一空白。其意义在于推动了印度语言TTS技术的发展，为多语言语音合成研究提供了新的可能性。

实际应用

IndicVoices-R数据集在实际应用中具有广泛的前景。首先，它为印度语言的语音助手和智能客服系统提供了高质量的语音合成能力，提升了用户体验。其次，在教育领域，该数据集可以用于开发多语言的语音教学工具，帮助学习者更好地掌握印度各地方言。此外，在媒体和娱乐行业，它可以用于生成多样化的语音内容，丰富多语言配音和广播节目的制作。

数据集最近研究