neptts-bench
收藏Hugging Face2026-04-18 更新2026-04-19 收录
下载链接:
https://huggingface.co/datasets/ampixa/neptts-bench
下载链接
链接失效反馈官方服务:
资源简介:
NepTTS-Bench 是首个用于评估尼泊尔语文本到语音(TTS)系统的综合性基准数据集。该数据集包含365个经过音系设计的尼泊尔语句子及其元数据(sentences.json),来自12个不同TTS系统的约2000个音频文件(audio/),以及预计算的各种评估结果(results/)。此外,数据集还提供了所有基线系统的聚合分数(baselines.json)和一个尼泊尔语MOS预测器的检查点(model/,Spearman相关系数为0.587)。数据集评估了多种TTS系统,包括自然语音、尼泊尔语专用系统、云端服务和开源解决方案,并提供了各系统的人类平均意见得分(MOS)。该数据集适用于尼泊尔语TTS系统的性能评估和比较研究。
创建时间:
2026-04-13
原始信息汇总
NepTTS-Bench 数据集概述
数据集基本信息
- 数据集名称: NepTTS-Bench Dataset
- 描述: 首个用于评估尼泊尔语文本转语音系统的综合性基准。
- 语言: 尼泊尔语 (ne)
- 任务类别: 文本转语音 (text-to-speech)
- 数据规模: 1K<n<10K
- 许可证: MIT
- 标签: nepali, tts, speech, mos, benchmark
数据集内容
- sentences.json: 包含365个根据音系学设计的尼泊尔语句子及其元数据。
- audio/: 包含来自12个系统的文本转语音输出音频文件(约2000个文件)。
- results/: 预计算评估结果(SCOREQ, Chirp2, MMS, XLS-R, Whisper)。
- baselines.json: 所有基线系统的聚合分数。
- model/: 尼泊尔语平均意见分数预测器检查点(Spearman相关系数0.587)。
评估的系统与结果
| 系统 | 人类平均意见分数 | 类型 |
|---|---|---|
| Natural Speech | 3.91 | 人类语音 |
| TingTing Asmita | 3.49 | 尼泊尔语专用系统 |
| ElevenLabs v3 | 3.48 | 云端服务 |
| Piper | 3.47 | 开源系统 |
| TingTing Subina | 3.42 | 尼泊尔语专用系统 |
| Edge TTS Hemkala | 3.31 | 云端服务 (Microsoft) |
| Edge TTS Sagar | 3.28 | 云端服务 (Microsoft) |
| Gemini Flash | 3.19 | 云端服务 (Google) |
| gTTS | 2.56 | 云端服务 (Google Translate) |
使用方法
Python
python from datasets import load_dataset ds = load_dataset("ampixa/neptts-bench")
命令行工具
bash pip install neptts-eval neptts-eval --wav_dir ./my_tts_outputs/
引用
bibtex @article{neptts-bench-2026, title={NepTTS-Bench: A Comprehensive Benchmark for Nepali Text-to-Speech Evaluation}, author={Ampixa}, year={2026} }
相关链接
- GitHub: https://github.com/Ampixa/neptts-bench
- Rate TTS: https://tts.ampixa.com/rating
- 论文: 即将发布
搜集汇总
数据集介绍

构建方式
在尼泊尔语语音合成研究领域,NepTTS-Bench数据集的构建体现了严谨的学术设计。其核心由365条经过音韵学设计的尼泊尔语句子构成,并附有详尽的元数据。在此基础上,研究团队系统性地采集了来自12种不同语音合成系统的近2000个音频输出,涵盖了从云端服务、开源工具到专门针对尼泊尔语优化的模型等多种类型。该数据集还预先计算了多种客观评估指标的结果,并包含一个经过训练的尼泊尔语平均意见得分预测模型,为后续研究提供了坚实的基准和便利。
使用方法
对于希望利用该数据集的研究者,其使用途径清晰而便捷。最直接的方式是通过Hugging Face的`datasets`库进行加载,快速获取所有句子、音频及评估数据。此外,数据集配套提供了专用的命令行评估工具`neptts-eval`,用户只需安装相应包并指向自己的语音合成输出目录,即可自动化地运行与基准一致的评测流程,并获得可比较的分数。这种设计既支持对现有基准结果的深入分析,也便于将新的语音合成系统纳入同一框架进行公平、高效的性能评估。
背景与挑战
背景概述
在语音合成技术蓬勃发展的时代,针对低资源语言的文本转语音系统评估长期缺乏标准化基准。NepTTS-Bench数据集由Ampixa团队于2026年创建,作为首个针对尼泊尔语的综合性TTS评估基准,旨在系统性地衡量不同语音合成系统在尼泊尔语上的性能表现。该数据集围绕尼泊尔语的语言特性,设计了包含365个句子的语料库,并整合了十二种主流TTS系统的合成音频及预计算评估结果,为尼泊尔语语音技术的研究与开发提供了至关重要的量化依据,推动了该领域向标准化、可复现的方向演进。
当前挑战
尼泊尔语作为低资源语言,其文本转语音任务面临独特的语言学挑战,包括复杂的音系结构、有限的公开语音数据以及缺乏统一的评估标准。构建NepTTS-Bench数据集的过程中,研究人员需精心设计覆盖音韵平衡的句子集合,并协调多种商业与开源TTS系统生成可比对的音频样本。同时,数据集的构建还涉及大规模主观听感评估的组织与客观度量指标的整合,以确保评估结果的全面性与可靠性,为后续研究树立了严谨的基准范式。
常用场景
经典使用场景
在语音合成领域,针对低资源语言的评估常面临数据匮乏的挑战。NepTTS-Bench作为首个全面的尼泊尔语文本转语音基准,其经典使用场景在于系统性地评估不同TTS模型的性能。该数据集通过精心设计的365个尼泊尔语句子,覆盖了丰富的音韵特征,为研究者提供了标准化的测试集,用于比较开源、云端及专用系统的语音质量,从而推动尼泊尔语语音技术的客观评测与优化。
解决学术问题
该数据集有效解决了尼泊尔语作为低资源语言在语音合成研究中缺乏统一评估标准的问题。通过集成多种自动评估指标(如SCOREQ、Chirp2等)与人类平均意见分数(MOS),它提供了多维度的性能度量,促进了跨模型的可比性研究。这不仅填补了尼泊尔语TTS评估的空白,还为其他低资源语言的基准建设提供了方法论参考,加速了语音技术在全球语言多样性中的公平发展。
实际应用
在实际应用中,NepTTS-Bench可直接服务于尼泊尔语语音技术的开发与部署。例如,教育科技公司可利用该基准优化尼泊尔语有声教材的合成质量,提升学习体验;公共服务领域则能基于评估结果选择可靠的TTS系统,用于新闻播报或信息播送,增强信息可达性。此外,其预计算的评估结果和尼泊尔语MOS预测器检查点,为工程师提供了即用工具,显著降低了开发门槛。
数据集最近研究
最新研究方向
在低资源语言语音合成领域,NepTTS-Bench作为首个尼泊尔语文本转语音综合基准,正推动该方向的前沿探索。其通过精心设计的365条语音学句子及多系统音频输出,为评估模型在音质、自然度与可懂度等维度提供了标准化框架。当前研究热点聚焦于利用该基准的预计算评估结果(如SCOREQ、Chirp2等)及尼泊尔语MOS预测器,以提升低资源语言TTS系统的跨语言泛化能力与自动化评估效率。这一进展不仅填补了尼泊尔语语音技术评估的空白,更为全球语言多样性保护及公平性人工智能发展提供了关键数据支持,促进了多语言语音合成技术的均衡演进。
以上内容由遇见数据集搜集并总结生成



