tts_indic

Hugging Face2025-11-25 更新2025-11-26 收录

下载链接：

https://huggingface.co/datasets/PrakashPask/tts_indic

下载链接

链接失效反馈

官方服务：

资源简介：

一个包含Gujarati、Hindi、Kannada、Malayalam、Marathi、Tamil和Telugu七种语言的语音数据集。每个语言配置都包含参考音频、文本到语音的文本和音频以及说话者信息。部分音频数据被标记为不需要解码。

创建时间：

2025-11-24

原始信息汇总

数据集概述

基本信息

数据集名称: tts_indic
语言: 印度语系多语言
配置数量: 7种语言配置

配置详情

古吉拉特语 (gujarati)

特征字段:
- ref_audio: 音频类型
- tts_text: 文本字符串
- tts_audio: 音频类型
- speaker: 整数类型
数据分割: gu_1
样本数量: 7,452
数据集大小: 17.05 GB
下载大小: 16.23 GB

印地语 (hindi)

特征字段:
- ref_audio: 音频类型
- tts_text: 文本字符串
- tts_audio: 音频类型
- speaker: 整数类型
数据分割: hi_1
样本数量: 620
数据集大小: 971.21 MB
下载大小: 872.29 MB

卡纳达语 (kannada)

特征字段:
- ref_audio: 音频类型
- tts_text: 文本字符串
- tts_audio: 音频类型
- speaker: 整数类型
数据分割: ka_1
样本数量: 9,694
数据集大小: 14.37 GB
下载大小: 13.28 GB

马拉雅拉姆语 (malayalam)

特征字段:
- ref_audio: 音频类型
- tts_text: 文本字符串
- tts_audio: 音频类型
- speaker: 字符串类型
数据分割: ml_1
样本数量: 2,000
数据集大小: 1.50 GB
下载大小: 1.49 GB

马拉地语 (marathi)

特征字段:
- ref_audio: 音频类型
- tts_text: 文本字符串
- tts_audio: 音频类型
- speaker: 整数类型
数据分割: ma_1
样本数量: 10,939
数据集大小: 14.41 GB
下载大小: 12.34 GB

泰米尔语 (tamil)

特征字段:
- ref_audio: 音频类型
- tts_text: 文本字符串
- tts_audio: 音频类型
- speaker: 整数类型
数据分割: ta
样本数量: 9,437
数据集大小: 17.12 GB
下载大小: 15.71 GB

泰卢固语 (telugu)

特征字段:
- ref_audio: 音频类型
- tts_text: 文本字符串
- tts_audio: 音频类型
- speaker: 整数类型
数据分割: te_1
样本数量: 8,576
数据集大小: 13.37 GB
下载大小: 11.99 GB

数据特征

统一特征: 所有配置均包含参考音频、文本和语音合成音频
说话人标识: 多数配置使用整数标识，马拉雅拉姆语使用字符串标识
音频格式: 标准音频数据类型

数据规模

总样本量: 约49,718个样本
覆盖语言: 7种印度主要语言
应用领域: 语音合成、文本到语音转换

搜集汇总

数据集介绍

构建方式

在印度语言语音合成研究领域，tts_indic数据集通过系统化采集七种主要印度语言构建而成。该数据集涵盖古吉拉特语、印地语、卡纳达语、马拉雅拉姆语、马拉地语、泰米尔语和泰卢固语等多种语言变体，每种语言均包含数千条语音文本配对样本。数据采集过程严格遵循语音合成研究规范，确保音频质量与文本标注的一致性，为多语言语音合成模型训练提供了标准化数据基础。

特点

该数据集最显著的特征在于其多语言覆盖的广度与深度，每种语言配置均包含参考音频、合成文本、目标音频及说话人标识四个核心特征维度。不同语言的数据规模呈现合理分布，从印地语的620条样本到卡纳达语的9694条样本，体现了对语言资源平衡性的考量。数据集特别注重说话人身份的标注一致性，多数语言采用整型标识符，而马拉雅拉姆语则使用字符串标识，这种设计为说话人自适应合成研究提供了便利。

使用方法

研究人员可通过HuggingFace平台直接访问该数据集，按照语言配置名称加载特定语种数据。使用过程中需注意音频解码设置，部分语言的参考音频和目标音频字段默认关闭解码功能。数据集支持按语言分割独立加载，如古吉拉特语的gu_1分割或泰米尔语的ta分割，这种模块化设计便于开展单语言或多语言的对比实验。数据加载后可直接用于文本到语音模型的训练与评估，为印度语言语音合成技术发展提供重要支撑。

背景与挑战

背景概述

随着语音合成技术在全球化应用中的深入发展，印度次大陆多语言语音资源的匮乏问题日益凸显。tts_indic数据集由研究机构在2020年代初期构建，聚焦于古吉拉特语、印地语、卡纳达语等七种印度主要语言的文本到语音转换任务。该数据集通过整合参考音频、合成文本及说话人标识等多元特征，为低资源语言的语音合成模型训练提供了标准化语料支撑，显著推动了南亚地区语音技术研究的公平性与包容性发展。

当前挑战

印度语言语音合成面临音素库稀疏与韵律建模复杂化的双重挑战，其声学特征受德拉维达语系与印欧语系交叉影响，导致基频轨迹预测存在系统性偏差。数据构建过程中需克服方言变体采集不均衡问题，例如马拉雅拉姆语仅包含2000条样本，而泰米尔语样本量达近万条，这种分布差异加剧了跨语言迁移学习的难度。同时，原始音频的采样环境不一致性进一步制约了声学模型的特征提取效率。

常用场景

经典使用场景

在印度语言语音合成研究中，tts_indic数据集为多语言文本转语音模型训练提供了核心支持。该数据集涵盖古吉拉特语、印地语、泰米尔语等七种主要印度语言，每个配置均包含参考音频、文本及合成音频对，辅以说话人标识，为跨语言声学建模与韵律分析奠定了数据基础。研究人员可借此构建端到端神经网络系统，探索音素对齐与声学特征迁移等关键问题。

衍生相关工作

围绕该数据集已衍生出系列经典研究工作，包括基于对抗训练的跨语言声码器开发、多说话人韵律克隆模型构建等。其中最具代表性的是结合该数据集与转移学习技术的低资源语音合成框架，这些成果被扩展应用于南亚语言保护工程，并催生了面向特定语种的端到端实时合成系统迭代。

数据集最近研究