Indic-total-New-TTS-Merge-dnsmos

Hugging Face2026-03-03 更新2026-03-04 收录

下载链接：

https://huggingface.co/datasets/RidheshBhati/Indic-total-New-TTS-Merge-dnsmos

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多种语言（阿萨姆语、孟加拉语、英语、古吉拉特语、印地语、卡纳达语、马拉雅拉姆语、马拉地语、尼泊尔语）的语音质量评估数据。每个语言配置包含训练集，数据特征包括行索引（row_idx）和三个DNSMOS评分（DNSMOS_OVRL、DNSMOS_SIG、DNSMOS_BAK），分别代表整体语音质量、信号质量和背景噪声质量。数据集规模从英语的22,367个样本到孟加拉语的80,358个样本不等，总数据量在438KB到2.5MB之间。适用于语音质量评估、语音增强算法开发等任务。

创建时间：

2026-03-02

原始信息汇总

数据集概述

基本信息

数据集名称: Indic-total-New-TTS-Merge-dnsmos
托管地址: https://huggingface.co/datasets/RidheshBhati/Indic-total-New-TTS-Merge-dnsmos

数据集结构

本数据集包含9个独立的配置，每个配置对应一种语言。所有配置均仅包含一个训练集分割。

配置详情

1. 阿萨姆语 (assamese)

样本数量: 48,298
数据集大小: 1,545,536 字节
下载大小: 1,702,417 字节

2. 孟加拉语 (bengali)

样本数量: 80,358
数据集大小: 2,571,456 字节
下载大小: 2,865,658 字节

3. 英语 (english)

样本数量: 22,367
数据集大小: 715,744 字节
下载大小: 794,959 字节

4. 古吉拉特语 (gujarati)

样本数量: 13,703
数据集大小: 438,496 字节
下载大小: 472,195 字节

5. 印地语 (hindi)

样本数量: 31,627
数据集大小: 1,012,064 字节
下载大小: 1,107,650 字节

6. 卡纳达语 (kannada)

样本数量: 28,110
数据集大小: 899,520 字节
下载大小: 995,380 字节

7. 马拉雅拉姆语 (malayalam)

样本数量: 43,426
数据集大小: 1,389,632 字节
下载大小: 1,489,512 字节

8. 马拉地语 (marathi)

样本数量: 41,702
数据集大小: 1,334,464 字节
下载大小: 1,256,031 字节

9. 尼泊尔语 (nepali)

样本数量: 37,368
数据集大小: 1,195,776 字节
下载大小: 1,324,974 字节

数据特征

所有配置均包含以下4个特征：

row_idx: 数据类型为 int64。
DNSMOS_OVRL: 数据类型为 float64。
DNSMOS_SIG: 数据类型为 float64。
DNSMOS_BAK: 数据类型为 float64。

数据文件路径

每个配置的数据文件路径模式如下：

{语言名称}/train-*

搜集汇总

数据集介绍

构建方式

在语音合成技术蓬勃发展的背景下，Indic-total-New-TTS-Merge-dnsmos数据集的构建体现了对多语言语音质量的系统性评估需求。该数据集通过整合多种印度语言及英语的文本转语音样本，并运用DNSMOS客观语音质量评估工具，对每个音频样本进行了多维度的量化评分。构建过程涉及对大量合成语音的收集与统一处理，确保了评估标准的客观性与一致性，为后续的模型训练与质量分析奠定了数据基础。

使用方法

在语音合成与质量评估的研究领域，本数据集为开发与优化多语言TTS模型提供了关键的训练与基准测试资源。研究人员可直接加载特定语言配置的数据，利用其提供的DNSMOS分数作为监督信号，训练能够预测或生成高质量语音的模型。同时，不同语言的平行分数结构支持进行跨语言语音质量的一致性研究或构建语言自适应的质量评估器，推动语音技术在多语言场景下的公平性与性能提升。

背景与挑战

背景概述

Indic-total-New-TTS-Merge-dnsmos数据集聚焦于多语言文本到语音合成领域，特别是针对印度次大陆的多种语言。随着人工智能在语音技术中的深入应用，支持低资源语言的TTS系统成为研究热点。该数据集由相关研究机构或团队构建，旨在整合阿萨姆语、孟加拉语、英语、古吉拉特语、印地语、卡纳达语、马拉雅拉姆语、马拉地语和尼泊尔语等多种语言的语音样本，并引入DNSMOS客观质量评估指标，为开发高质量、跨语言的语音合成模型提供数据基础。其创建推动了语音技术在全球语言多样性背景下的包容性发展，对促进数字平等和语言技术普及具有重要影响。

当前挑战

该数据集致力于解决多语言文本到语音合成中的语音质量评估与优化问题，核心挑战在于如何准确量化不同语言环境下合成语音的感知质量。由于印度语言在音系、韵律和声学特征上差异显著，构建统一的评估框架面临语言多样性与数据稀疏性之间的平衡难题。在数据集构建过程中，收集和标注多种低资源语言的语音数据涉及复杂的语言学专业知识与质量控制，确保DNSMOS指标在不同语言间的可比性与一致性也是一项技术挑战。这些因素共同制约了跨语言TTS模型的性能提升与广泛应用。

常用场景

经典使用场景

在语音合成技术领域，Indic-total-New-TTS-Merge-dnsmos数据集为多语言文本到语音系统的开发提供了关键资源。该数据集整合了包括阿萨姆语、孟加拉语、英语、古吉拉特语、印地语、卡纳达语、马拉雅拉姆语、马拉地语和尼泊尔语在内的九种语言语音样本，并标注了DNSMOS客观质量评分。研究者利用这些数据训练和评估神经TTS模型，特别是在低资源语言场景下，通过迁移学习或跨语言建模提升合成语音的自然度与清晰度，推动了多语言语音技术的均衡发展。

解决学术问题

该数据集有效应对了语音合成研究中长期存在的低资源语言数据匮乏问题。通过提供多种印度语言的高质量语音样本及其客观质量指标，它支持了跨语言语音合成、语音质量自动评估以及多语言声学建模等前沿课题的探索。其标注的DNSMOS分数（包括整体质量、信号质量和背景噪声评分）为量化语音合成输出提供了可靠基准，促进了客观评价指标与主观听感之间关联性的深入研究，从而在学术上缩小了高资源与低资源语言之间的技术鸿沟。

实际应用

在实际应用层面，Indic-total-New-TTS-Merge-dnsmos数据集为开发面向南亚地区的智能语音产品奠定了数据基础。基于该数据集训练的TTS系统可集成到教育科技、无障碍辅助工具、本地化虚拟助手及媒体内容自动生成等场景中，例如为视障用户提供多语言有声读物，或为地区性新闻平台生成语音播报。这些应用不仅提升了数字服务的包容性与可及性，也推动了本地化人工智能解决方案的商业化落地，惠及更广泛的非英语用户群体。

数据集最近研究