cc100-nepali-tts

Hugging Face2026-05-15 更新2026-05-16 收录

下载链接：

https://huggingface.co/datasets/Titung/cc100-nepali-tts

下载链接

链接失效反馈

官方服务：

资源简介：

CC100 Nepali TTS是一个尼泊尔语语音合成数据集，包含超过11,000个由文本生成的合成音频样本。该数据集是Himalaya-AI计划的一部分，旨在为尼泊尔语开发开放的语音资源。数据来源于CC-100尼泊尔语语料库，使用Microsoft的ne-NP-HemkalaNeural神经语音（Azure/Edge TTS）进行合成，语音为女性声音。数据集采用分片存储结构，每个分片包含100个样本，总样本数超过11,000个。每个样本包含三个字段：id（格式为{row_index:08d}_{md5[:8]}的唯一标识符）、text（尼泊尔语源文本）和audio（24 kHz采样率、单声道、float32格式的WAV音频，使用HuggingFace Audio特征表示）。该数据集适用于文本到语音（TTS）任务、尼泊尔语语音合成模型训练、语音技术研究以及尼泊尔语语音应用开发。

创建时间：

2026-05-06

原始信息汇总

数据集概述：CC100 Nepali TTS

基本信息

数据集名称: CC100 Nepali TTS
语言: 尼泊尔语（ne-NP）
许可证: CC-BY-4.0
任务类别: 文本转语音（Text-to-Speech）
标签: 音频、语音、尼泊尔语、TTS、神经TTS
数据集大小: 10,000 < 样本数 < 100,000（实际为11,000+）
** Hugging Face 数据集地址**: Titung/cc100-nepali-tts

数据来源与生成方式

该数据集基于 CC-100 尼泊尔语语料库生成。
使用微软的 ne-NP-HemkalaNeural 神经语音（Azure / Edge TTS）合成音频样本。
由 Himalaya-AI 倡议构建，旨在为尼泊尔语言开发开放语音资源。

数据集详情

字段	值
语言	尼泊尔语（`ne-NP`）
语音	`ne-NP-female` (女性声音)
样本数量	11,000+
音频格式	24 kHz · 单声道 · float32 WAV
数据列	`id`, `text`, `audio`
源文本	Titung/cc100-nepali-cleaned

数据集结构

数据集以分片（shard）形式组织，每个 shard 包含 100 个样本，文件格式为 Parquet。结构如下：

data/ shard_0000/ ← 行 0 – 99 shard_0001/ ← 行 100 – 199 ⋮ shard_0109/ ← 行 10900 – 10999 ⋮

数据模式（Schema）

每个样本包含三个字段： python { "id": str, # 格式为 "{row_index:08d}_{md5[:8]}"，稳定唯一标识符 "text": str, # 尼泊尔语源文本 "audio": Audio, # HuggingFace Audio 特征，采样率 24 kHz }

数据集划分与统计

划分	样本数	字节数
train (训练集)	100 (实际完整集为11,000+)	72,871,268

注意：README 中展示的下载大小约为 145 MB，数据集大小约为 72 MB，但实际包含 11,000+ 样本。

使用示例

在 Python 中加载数据集： python from datasets import load_dataset ds = load_dataset("Titung/cc100-nepali-tts", split="train") print(len(ds)) print(ds[0])

播放样本音频（在 Jupyter Notebook 中）： python import IPython.display as ipd sample = ds[0] ipd.Audio(sample["audio"]["array"], rate=sample["audio"]["sampling_rate"])

引用信息

bibtex @dataset{titung2025cc100nepalitts, author = {Anil Titung}, title = {CC100 Nepali TTS}, year = {2025}, publisher = {Himalaya-AI}, url = {https://huggingface.co/datasets/Titung/cc100-nepali-tts} }

搜集汇总

数据集介绍

构建方式

CC100 Nepali TTS数据集源于对CC-100尼泊尔语语料库的深度挖掘与合成，借助微软先进的ne-NP-HemkalaNeural神经语音引擎，通过Azure/Edge TTS技术，将逾一万一千条尼泊尔语文本转化为高保真度的合成语音样本。每个样本以24 kHz采样率、单声道float32 WAV格式保存，并配以稳定的唯一标识符，确保了数据的一致性与可溯性，最终以分片Parquet文件形式组织，每片容纳100个样本。

特点

该数据集兼具规模与专业性，拥有超过11,000个合成音频样本，覆盖尼泊尔语的多样化表达。其核心特色在于采用统一的女性神经语音，保证了音色的连贯性与自然度，同时以16,000 Hz的采样频率满足了神经网络训练的高标准要求。数据划分为训练集，结构简洁明晰，包含文本、音频及唯一ID三列，为尼泊尔语文本转语音研究提供了标准化的基础资源。

使用方法

研究者可通过Hugging Face Datasets库便捷加载该数据集，执行一行代码即可获取训练分割的全部样本。在交互式环境中，借助IPython.display可直观聆听音频内容，便于进行数据探索或模型验证。数据集的分片结构允许按需加载，支持高效索引与批量处理，适用于构建尼泊尔语TTS系统的完整训练与评估流程。

背景与挑战

背景概述

CC100 Nepali TTS数据集由Anil Titung于2025年创建，隶属于Himalaya-AI倡议，旨在为尼泊尔语这一低资源语言构建开放的语音资源。该数据集基于CC-100尼泊尔语语料库，利用微软的ne-NP-HemkalaNeural神经语音合成技术，生成了超过11,000个高质量音频样本。其核心研究问题在于解决尼泊尔语语音合成中数据匮乏的困境，通过合成数据的方式为文本到语音（TTS）模型提供训练基础。这一数据集的出现，不仅填补了尼泊尔语开源语音数据集的空白，也为推动低资源语言的语音技术发展提供了重要支撑，在自然语言处理和语音合成领域产生了积极影响。

当前挑战

该数据集面临的挑战主要体现在两个层面。在领域问题层面，尼泊尔语作为低资源语言，缺乏大规模、高质量的真人语音数据，导致TTS模型训练困难，合成语音的自然度和表现力难以达到实用水平，同时不同方言和口音的多样性也增加了模型泛化的难度。在构建过程层面，依赖单一神经语音合成器（如ne-NP-HemkalaNeural）生成的音频可能引入合成偏差，与真人语音在韵律、情感表达等方面存在差异；此外，从CC-100语料库清洗后的文本中提取数据时，需要处理文本中的噪声、错误和不一致性，以确保合成音频的音质和语义准确性，这对数据预处理流程提出了较高要求。

常用场景

经典使用场景

CC100 Nepali TTS数据集专为尼泊尔语文本到语音合成任务而精心构建，其核心价值在于为低资源语言提供高质量的语音训练资源。该数据集包含超过11000个合成音频样本，文本源自CC-100尼泊尔语语料库，音频则采用微软神经语音引擎生成，采样率达24kHz，确保了音质的清晰与自然。在经典的TTS场景中，研究人员可直接利用该数据集训练端到端神经语音合成模型，如Tacotron、FastSpeech或VITS等架构，通过加载音频与文本对进行监督学习，使模型学会将尼泊尔语文字精准转化为流畅的语音波形。同时，该数据集也支持在语音克隆、多说话人建模等进阶任务中作为基础训练语料，尤其适用于开发面向尼泊尔语用户的语音助手、有声读物生成器等应用。

实际应用

在实际应用中，CC100 Nepali TTS数据集为尼泊尔语语音技术的产业化落地提供了坚实底座。基于该数据集训练的语音合成模型可直接部署于智能语音助手、导航系统、教育软件及无障碍阅读工具中，使尼泊尔语用户能够通过听觉获取信息。例如，在移动应用中，TTS模型可将新闻文章、天气预报或社交媒体内容实时转化为语音播报，极大便利视力障碍人士及阅读不便人群的信息获取。在教育和文化领域，该技术被用于制作尼泊尔语有声教材、儿童故事朗读机以及传统文献的语音版，助力语言教学与文化遗产传承。此外，医疗问诊、银行客服等场景中，自然流畅的合成语音能显著提升人机交互体验，推动尼泊尔语区域的数字化转型。

衍生相关工作

该数据集的诞生激发了多条衍生研究脉络。一方面，它直接支撑了Himalaya-AI项目下多个尼泊尔语语音识别与合成系统的开发，并催生了基于该数据集的发音词典构建、韵律标注及语音质量评估等配套工作。另一方面，研究者借鉴其合成数据生成范式，将类似方法迁移至其他低资源语言，如藏语、缅甸语等，形成了一系列同类型数据集。此外，CC100 Nepali TTS成为众多语音合成竞赛与评测任务中的标准训练集，例如在Blizzard Challenge和Voice Conversion Challenge中，参赛团队基于此数据提出了若干创新的声学模型与后处理算法。在学术论文中，该数据集频繁被引用于低资源TTS的跨语言知识蒸馏、零样本语音克隆及以音素为单位的细粒度时长建模等前沿课题，有力推动了该领域的理论发展。

以上内容由遇见数据集搜集并总结生成