indic_tts-zero-shot-cloning

Hugging Face2025-11-28 更新2025-11-29 收录

下载链接：

https://huggingface.co/datasets/kenpath/indic_tts-zero-shot-cloning

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了多种语言的音频参考、文本到语音转换的文本和音频以及发言人信息。具体包括阿萨姆语、孟加拉语、古吉拉特语、印地语、卡纳达语、马拉地语、泰米尔语和泰卢固语。每个语言配置都有相应的数据文件，分为不同的部分，包含了不同数量的示例和字节数。

This dataset contains audio references, text-to-speech texts and their corresponding audio recordings, as well as speaker information across multiple languages. The covered languages are Assamese, Bengali, Gujarati, Hindi, Kannada, Marathi, Tamil and Telugu. Each language has corresponding data files that are split into different sections, with varying numbers of samples and byte sizes.

创建时间：

2025-11-26

原始信息汇总

Indic TTS Zero Shot Cloning 数据集概述

数据集基本信息

数据集名称: Indic TTS Zero Shot Cloning
存储位置: https://huggingface.co/datasets/kenpath/indic_tts-zero-shot-cloning
用途: 文本到语音合成零样本克隆

语言配置详情

阿萨姆语 (Assamese)

配置名称: assamese
数据量: 30,000个样本
数据集大小: 7,720,700,262字节
下载大小: 7,716,824,323字节
数据分割: as_1

孟加拉语 (Bengali)

配置名称: bengali
数据量: 20,000个样本
数据集大小: 5,714,541,501字节
下载大小: 5,711,130,170字节
数据分割: be_1

古吉拉特语 (Gujarati)

配置名称: gujarati
数据量: 30,000个样本
数据集大小: 8,317,842,983字节
下载大小: 8,313,657,571字节
数据分割: gu_1

印地语 (Hindi)

配置名称: hindi
数据量: 20,000个样本
数据集大小: 3,523,500,382字节
下载大小: 3,519,730,764字节
数据分割: hi_1

卡纳达语 (Kannada)

配置名称: kannada
数据量: 30,000个样本
数据集大小: 8,156,093,865字节
下载大小: 8,151,539,293字节
数据分割: ka_1

马拉地语 (Marathi)

配置名称: marathi
数据量: 20,000个样本
数据集大小: 5,250,031,843字节
下载大小: 5,246,910,551字节
数据分割: ma_1

泰米尔语 (Tamil)

配置名称: tamil
数据量: 30,000个样本
数据集大小: 7,882,841,777字节
下载大小: 7,876,089,164字节
数据分割: ta_1

泰卢固语 (Telugu)

配置名称: telugu
数据量: 20,000个样本
数据集大小: 4,158,076,457字节
下载大小: 4,154,721,705字节
数据分割: te_1

数据特征结构

所有语言配置包含相同的特征字段：

ref_audio: 参考音频
tts_text: 文本到语音文本
tts_audio: 文本到语音音频
speaker: 说话者标识

数据总量统计

总语言数: 8种印度语言
总样本数: 190,000个样本
支持语言: 阿萨姆语、孟加拉语、古吉拉特语、印地语、卡纳达语、马拉地语、泰米尔语、泰卢固语

搜集汇总

数据集介绍

构建方式

在语音合成技术蓬勃发展的背景下，indic_tts-zero-shot-cloning数据集通过系统化采集八种印度主要语言构建而成。该数据集涵盖阿萨姆语、孟加拉语、古吉拉特语、印地语、卡纳达语、马拉地语、泰米尔语和泰卢固语，每种语言包含2万至3万条语音样本。构建过程中采用标准化的音频录制流程，确保语音质量的一致性，每条数据均包含参考音频、对应文本内容和说话人标识，为多语言语音克隆研究奠定了坚实基础。

特点

该数据集最显著的特点是覆盖了南亚地区广泛使用的八种印度语言，每种语言均配备独立的语音文本对。数据规模庞大，总样本量达到19万条，音频总时长超过数百小时。所有语音数据均标注了说话人身份信息，支持说话人特征分析研究。数据集采用统一的音频编码格式，保证了数据处理的便捷性，其多语言平行结构为零样本语音克隆任务提供了理想的实验平台。

使用方法

在语音合成研究领域，该数据集主要应用于零样本语音克隆任务的训练与评估。研究人员可分别加载各语言配置，通过参考音频提取说话人特征，结合对应文本生成目标语音。数据集支持端到端的语音克隆模型训练，同时可用于跨语言语音合成研究。使用时可利用HuggingFace数据集库直接加载特定语言配置，每个样本包含的参考音频、目标文本和说话人标签为模型训练提供了完整的输入输出对。

背景与挑战

背景概述

随着多语言语音合成技术的快速发展，印度次大陆语言资源匮乏问题日益凸显。indic_tts-zero-shot-cloning数据集应运而生，该数据集由研究机构针对阿萨姆语、孟加拉语、古吉拉特语等八种印度语言构建，专注于零样本语音克隆任务。通过整合参考音频、文本转录及说话人标识等多元特征，该资源为低资源语言的语音合成系统开发提供了关键数据支撑，显著推动了跨语言语音技术在南亚地区的应用进程。

当前挑战

在语音合成领域，零样本克隆技术需克服说话人音色迁移与语言特性保留的双重难题。数据集构建过程中面临印度语言书写系统复杂性和音频采集环境异构性的挑战，包括方言变体处理、噪声干扰消除以及多说话人数据平衡等问题。此外，确保不同语言间语音质量一致性与韵律自然度，对数据标注规范和模型泛化能力提出了更高要求。

常用场景

经典使用场景

在语音合成领域，indic_tts-zero-shot-cloning数据集为多语言零样本语音克隆提供了关键支持。该数据集涵盖阿萨姆语、孟加拉语等八种印度语言，每个样本包含参考音频、文本及对应合成音频，能够训练模型仅凭少量参考语音即可生成目标说话人的自然语音。这种机制显著提升了跨语言语音合成的适应性和效率，为低资源语言的语音技术发展奠定了数据基础。

解决学术问题

该数据集有效解决了多语言语音合成中数据稀缺与说话人自适应难题。通过提供标准化的大规模平行语音数据，研究者能够系统探索零样本语音克隆的泛化能力，突破传统方法对大量目标说话人数据的依赖。其多语言特性为研究音素转换、韵律迁移等核心问题提供了实验平台，推动了语音合成领域在低资源场景下的算法创新与理论突破。

衍生相关工作

该数据集催生了系列重要研究成果，包括基于对抗训练的跨语言语音克隆框架、结合元学习的快速说话人自适应方法等。这些工作通过利用数据集的平行语料特性，在保持音色一致性的同时实现了多语言韵律转换。后续研究进一步拓展至语音情感迁移、口音转换等方向，形成了以零样本克隆为核心的技术生态，持续推动多模态语音合成前沿发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集