Indic-total-New-TTS-Merge
收藏Hugging Face2026-03-03 更新2026-03-04 收录
下载链接:
https://huggingface.co/datasets/RidheshBhati/Indic-total-New-TTS-Merge
下载链接
链接失效反馈官方服务:
资源简介:
Indic Total TTS Merge 是一个包含13种印度语言的多语言文本转语音(TTS)数据集。该数据集合并了来自RidheshBhati/Indic_Mozilla_TTS和PalakEngineerMaster/Validated_data_TTS的语音数据,所有音频片段时长均≥3.0秒。数据集包含以下字段:'audio'(音频数据,采样率22050Hz)、'text'(转录文本)、'duration'(以秒为单位的持续时间)和'language'(语言标识)。覆盖的语言包括阿萨姆语、孟加拉语、英语、古吉拉特语、印地语、卡纳达语、马拉雅拉姆语、马拉地语、尼泊尔语、奥里亚语、旁遮普语、泰米尔语和泰卢固语。数据以分批次的形式组织,其中英语和旁遮普语包含大量训练批次(英语48批,旁遮普语36批),其他语言多为单批次训练数据。
Indic Total TTS Merge is a multilingual text-to-speech (TTS) dataset covering 13 Indian languages. It aggregates speech data from RidheshBhati/Indic_Mozilla_TTS and PalakEngineerMaster/Validated_data_TTS. All audio clips have a duration of ≥3.0 seconds. The dataset contains the following fields: 'audio' (audio data with a sampling rate of 22050 Hz), 'text' (transcribed text), 'duration' (duration in seconds), and 'language' (language identifier). The covered languages are Assamese, Bengali, English, Gujarati, Hindi, Kannada, Malayalam, Marathi, Nepali, Odia, Punjabi, Tamil, and Telugu. The dataset is organized in training batches: English and Punjabi have a large number of training batches (48 batches for English, 36 batches for Punjabi), while most other languages only have a single training batch.
创建时间:
2026-02-27
原始信息汇总
数据集概述
基本信息
- 数据集名称: Indic Total TTS Merge
- 托管地址: https://huggingface.co/datasets/RidheshBhati/Indic-total-New-TTS-Merge
- 描述: 一个合并的文本转语音(TTS)数据集,包含13种印度语言。所有音频片段时长均大于或等于3.0秒。
语言列表
数据集包含以下13种语言:阿萨姆语(assamese)、孟加拉语(bengali)、英语(english)、古吉拉特语(gujarati)、印地语(hindi)、卡纳达语(kannada)、马拉雅拉姆语(malayalam)、马拉地语(marathi)、尼泊尔语(nepali)、奥里亚语(odia)、旁遮普语(punjabi)、泰米尔语(tamil)、泰卢固语(telugu)。
数据结构与特征
数据集通过配置(config)进行组织,每个配置对应一种或一种语言的特定版本。所有配置共享以下数据特征(列):
audio: 音频数据,采样率为22050 Hz。text: 转录文本。duration: 音频时长(秒),所有数据均大于或等于3.0秒。language: 语言名称。
配置详情
已提供详细统计信息的配置
-
english
- 文件格式: Parquet
- 数据切分: 包含
train及train_batch_0至train_batch_48共49个切分。 - 样本量: 每个
train_batch_*切分包含1000个样本。 - 总下载大小: 24,865,229,034 字节
- 总数据集大小: 21,102,335,858 字节
-
english_new
- 文件格式: Parquet
- 数据切分: 包含
train_batch_0和train_batch_1两个切分。 - 样本量: 每个切分包含1000个样本。
- 总下载大小: 868,345,411 字节
- 总数据集大小: 868,493,589 字节
-
punjabi
- 文件格式: Parquet
- 数据切分: 包含
train及train_batch_0至train_batch_36共38个切分。 - 样本量:
train切分包含 28,876 个样本。train_batch_14切分包含 681 个样本。train_batch_36切分包含 311 个样本。- 其余
train_batch_*切分各包含1000个样本。
- 总下载大小: 36,354,779,674 字节
- 总数据集大小: 17,556,407,870 字节
-
punjabi_new
- 文件格式: Parquet
- 数据切分: 仅包含
train_batch_0一个切分。 - 样本量: 包含1000个样本。
- 总下载大小: 279,818,406 字节
- 总数据集大小: 280,666,699 字节
仅列出文件路径的配置
以下配置在README中列出了数据文件路径,但未提供详细的dataset_info统计信息(如样本量、数据集大小等):
- assamese
- bengali
- gujarati
- hindi
- kannada
- malayalam
- marathi
- nepali
- odia
- tamil
- telugu
数据源
数据集由以下两个源数据集合并而成:
- RidheshBhati/Indic_Mozilla_TTS
- PalakEngineerMaster/Validated_data_TTS
搜集汇总
数据集介绍
构建方式
在语音合成技术日益关注多语言资源的背景下,Indic-total-New-TTS-Merge数据集通过整合多个开源语音数据集构建而成。其核心来源包括RidheshBhati/Indic_Mozilla_TTS和PalakEngineerMaster/Validated_data_TTS等公开资源,涵盖了阿萨姆语、孟加拉语、英语等13种印度次大陆语言。数据经过筛选,确保所有音频片段时长不低于3.0秒,并以标准化格式统一处理,最终以分语言、分批次的parquet文件形式组织,便于高效存储与访问。
特点
该数据集显著特点在于其广泛的语言覆盖与严格的质量控制。它不仅包含英语等全球性语言,更重点收录了12种印度本土语言,为多语言语音合成研究提供了宝贵的资源。所有音频均以22050赫兹采样率保存,并附带准确的文本转录、时长及语言标签,确保了数据的一致性与可用性。数据规模庞大,例如英语和旁遮普语配置均包含数万条样本,且通过分批存储优化了大规模数据的管理与加载效率。
使用方法
研究人员可通过HuggingFace数据集库直接加载该数据集,利用其提供的语言配置(如`assamese`、`bengali`)灵活选择特定语料。每个配置下的数据以训练集形式提供,包含音频、文本、时长和语言四列,可直接用于训练文本到语音模型或进行多语言语音分析。鉴于数据已按语言和批次组织,用户可依据计算资源分批加载,例如加载`english`配置下的特定`train_batch`文件,以高效开展模型训练与评估工作。
背景与挑战
背景概述
在语音合成技术蓬勃发展的背景下,多语言语音数据集的构建成为推动技术普惠的关键。Indic-total-New-TTS-Merge数据集由社区贡献者整合自RidheshBhati/Indic_Mozilla_TTS和PalakEngineerMaster/Validated_data_TTS等开源项目,专注于南亚地区13种印度语言及英语的文本到语音任务。该数据集旨在解决低资源语言语音合成模型训练数据匮乏的核心问题,通过提供时长均超过3秒的高质量音频-文本对齐样本,为构建包容性语音技术奠定数据基础,对促进语言技术在全球范围内的公平发展具有显著影响力。
当前挑战
该数据集致力于应对多语言文本到语音合成领域的双重挑战。在领域问题层面,低资源语言如阿萨姆语、奥里亚语等缺乏大规模标注语音数据,导致模型在音素覆盖、韵律自然度方面表现受限;同时,不同语言间音系结构差异显著,统一建模难度较高。在构建过程中,数据整合面临异构来源的格式统一、音频质量筛选以及跨语言文本转录规范对齐等工程挑战,确保多语言数据在采样率、时长阈值上的一致性亦需精细处理。
常用场景
经典使用场景
在语音合成技术领域,多语言语音数据集的构建对于推动跨语言语音模型的发展至关重要。Indic-total-New-TTS-Merge数据集以其涵盖13种印度语言及英语的广泛覆盖,成为训练和评估多语言文本到语音合成系统的经典资源。该数据集通过提供高质量、时长统一的音频-文本对,支持研究人员构建能够流畅处理多种印度语言的语音合成模型,尤其在低资源语言语音生成任务中展现出重要价值。
解决学术问题
该数据集有效解决了语音合成研究中低资源语言数据匮乏的核心挑战。通过整合阿萨姆语、孟加拉语、印地语等多种印度语言的大规模语音数据,它为探索跨语言语音表征学习、多语言语音合成模型的迁移能力以及语言间音素映射等学术问题提供了坚实基础。其意义在于促进了语音技术在全球语言多样性背景下的公平发展,为打破语言技术鸿沟贡献了关键数据支撑。
衍生相关工作
围绕该数据集衍生的经典工作主要集中在多语言语音合成架构的优化与评估上。研究人员利用其构建了支持多种印度语言的端到端TTS模型,并在此基础上探索了语言适配、语音风格迁移以及跨语言语音克隆等技术。这些工作不仅推动了如Indic-TTS等开源项目的进展,也为后续更大规模的多模态语音研究提供了可扩展的数据基准和模型基础。
以上内容由遇见数据集搜集并总结生成



