five

cc100-nepali-tts

收藏
Hugging Face2026-05-15 更新2026-05-16 收录
下载链接:
https://huggingface.co/datasets/Titung/cc100-nepali-tts
下载链接
链接失效反馈
官方服务:
资源简介:
CC100 Nepali TTS是一个尼泊尔语语音合成数据集,包含超过11,000个由文本生成的合成音频样本。该数据集是Himalaya-AI计划的一部分,旨在为尼泊尔语开发开放的语音资源。数据来源于CC-100尼泊尔语语料库,使用Microsoft的ne-NP-HemkalaNeural神经语音(Azure/Edge TTS)进行合成,语音为女性声音。数据集采用分片存储结构,每个分片包含100个样本,总样本数超过11,000个。每个样本包含三个字段:id(格式为{row_index:08d}_{md5[:8]}的唯一标识符)、text(尼泊尔语源文本)和audio(24 kHz采样率、单声道、float32格式的WAV音频,使用HuggingFace Audio特征表示)。该数据集适用于文本到语音(TTS)任务、尼泊尔语语音合成模型训练、语音技术研究以及尼泊尔语语音应用开发。
创建时间:
2026-05-06
原始信息汇总

数据集概述:CC100 Nepali TTS

基本信息

  • 数据集名称: CC100 Nepali TTS
  • 语言: 尼泊尔语(ne-NP
  • 许可证: CC-BY-4.0
  • 任务类别: 文本转语音(Text-to-Speech)
  • 标签: 音频、语音、尼泊尔语、TTS、神经TTS
  • 数据集大小: 10,000 < 样本数 < 100,000(实际为11,000+)
  • ** Hugging Face 数据集地址**: Titung/cc100-nepali-tts

数据来源与生成方式

  • 该数据集基于 CC-100 尼泊尔语语料库 生成。
  • 使用微软的 ne-NP-HemkalaNeural 神经语音(Azure / Edge TTS)合成音频样本。
  • Himalaya-AI 倡议构建,旨在为尼泊尔语言开发开放语音资源。

数据集详情

字段
语言 尼泊尔语(ne-NP
语音 ne-NP-female (女性声音)
样本数量 11,000+
音频格式 24 kHz · 单声道 · float32 WAV
数据列 id, text, audio
源文本 Titung/cc100-nepali-cleaned

数据集结构

数据集以分片(shard)形式组织,每个 shard 包含 100 个样本,文件格式为 Parquet。结构如下:

data/ shard_0000/ ← 行 0 – 99 shard_0001/ ← 行 100 – 199 ⋮ shard_0109/ ← 行 10900 – 10999 ⋮

数据模式(Schema)

每个样本包含三个字段: python { "id": str, # 格式为 "{row_index:08d}_{md5[:8]}",稳定唯一标识符 "text": str, # 尼泊尔语源文本 "audio": Audio, # HuggingFace Audio 特征,采样率 24 kHz }

数据集划分与统计

划分 样本数 字节数
train (训练集) 100 (实际完整集为11,000+) 72,871,268

注意:README 中展示的下载大小约为 145 MB,数据集大小约为 72 MB,但实际包含 11,000+ 样本。

使用示例

在 Python 中加载数据集: python from datasets import load_dataset ds = load_dataset("Titung/cc100-nepali-tts", split="train") print(len(ds)) print(ds[0])

播放样本音频(在 Jupyter Notebook 中): python import IPython.display as ipd sample = ds[0] ipd.Audio(sample["audio"]["array"], rate=sample["audio"]["sampling_rate"])

引用信息

bibtex @dataset{titung2025cc100nepalitts, author = {Anil Titung}, title = {CC100 Nepali TTS}, year = {2025}, publisher = {Himalaya-AI}, url = {https://huggingface.co/datasets/Titung/cc100-nepali-tts} }

搜集汇总
数据集介绍
main_image_url
构建方式
CC100 Nepali TTS数据集源于对CC-100尼泊尔语语料库的深度挖掘与合成,借助微软先进的ne-NP-HemkalaNeural神经语音引擎,通过Azure/Edge TTS技术,将逾一万一千条尼泊尔语文本转化为高保真度的合成语音样本。每个样本以24 kHz采样率、单声道float32 WAV格式保存,并配以稳定的唯一标识符,确保了数据的一致性与可溯性,最终以分片Parquet文件形式组织,每片容纳100个样本。
特点
该数据集兼具规模与专业性,拥有超过11,000个合成音频样本,覆盖尼泊尔语的多样化表达。其核心特色在于采用统一的女性神经语音,保证了音色的连贯性与自然度,同时以16,000 Hz的采样频率满足了神经网络训练的高标准要求。数据划分为训练集,结构简洁明晰,包含文本、音频及唯一ID三列,为尼泊尔语文本转语音研究提供了标准化的基础资源。
使用方法
研究者可通过Hugging Face Datasets库便捷加载该数据集,执行一行代码即可获取训练分割的全部样本。在交互式环境中,借助IPython.display可直观聆听音频内容,便于进行数据探索或模型验证。数据集的分片结构允许按需加载,支持高效索引与批量处理,适用于构建尼泊尔语TTS系统的完整训练与评估流程。
背景与挑战
背景概述
CC100 Nepali TTS数据集由Anil Titung于2025年创建,隶属于Himalaya-AI倡议,旨在为尼泊尔语这一低资源语言构建开放的语音资源。该数据集基于CC-100尼泊尔语语料库,利用微软的ne-NP-HemkalaNeural神经语音合成技术,生成了超过11,000个高质量音频样本。其核心研究问题在于解决尼泊尔语语音合成中数据匮乏的困境,通过合成数据的方式为文本到语音(TTS)模型提供训练基础。这一数据集的出现,不仅填补了尼泊尔语开源语音数据集的空白,也为推动低资源语言的语音技术发展提供了重要支撑,在自然语言处理和语音合成领域产生了积极影响。
当前挑战
该数据集面临的挑战主要体现在两个层面。在领域问题层面,尼泊尔语作为低资源语言,缺乏大规模、高质量的真人语音数据,导致TTS模型训练困难,合成语音的自然度和表现力难以达到实用水平,同时不同方言和口音的多样性也增加了模型泛化的难度。在构建过程层面,依赖单一神经语音合成器(如ne-NP-HemkalaNeural)生成的音频可能引入合成偏差,与真人语音在韵律、情感表达等方面存在差异;此外,从CC-100语料库清洗后的文本中提取数据时,需要处理文本中的噪声、错误和不一致性,以确保合成音频的音质和语义准确性,这对数据预处理流程提出了较高要求。
常用场景
经典使用场景
CC100 Nepali TTS数据集专为尼泊尔语文本到语音合成任务而精心构建,其核心价值在于为低资源语言提供高质量的语音训练资源。该数据集包含超过11000个合成音频样本,文本源自CC-100尼泊尔语语料库,音频则采用微软神经语音引擎生成,采样率达24kHz,确保了音质的清晰与自然。在经典的TTS场景中,研究人员可直接利用该数据集训练端到端神经语音合成模型,如Tacotron、FastSpeech或VITS等架构,通过加载音频与文本对进行监督学习,使模型学会将尼泊尔语文字精准转化为流畅的语音波形。同时,该数据集也支持在语音克隆、多说话人建模等进阶任务中作为基础训练语料,尤其适用于开发面向尼泊尔语用户的语音助手、有声读物生成器等应用。
实际应用
在实际应用中,CC100 Nepali TTS数据集为尼泊尔语语音技术的产业化落地提供了坚实底座。基于该数据集训练的语音合成模型可直接部署于智能语音助手、导航系统、教育软件及无障碍阅读工具中,使尼泊尔语用户能够通过听觉获取信息。例如,在移动应用中,TTS模型可将新闻文章、天气预报或社交媒体内容实时转化为语音播报,极大便利视力障碍人士及阅读不便人群的信息获取。在教育和文化领域,该技术被用于制作尼泊尔语有声教材、儿童故事朗读机以及传统文献的语音版,助力语言教学与文化遗产传承。此外,医疗问诊、银行客服等场景中,自然流畅的合成语音能显著提升人机交互体验,推动尼泊尔语区域的数字化转型。
衍生相关工作
该数据集的诞生激发了多条衍生研究脉络。一方面,它直接支撑了Himalaya-AI项目下多个尼泊尔语语音识别与合成系统的开发,并催生了基于该数据集的发音词典构建、韵律标注及语音质量评估等配套工作。另一方面,研究者借鉴其合成数据生成范式,将类似方法迁移至其他低资源语言,如藏语、缅甸语等,形成了一系列同类型数据集。此外,CC100 Nepali TTS成为众多语音合成竞赛与评测任务中的标准训练集,例如在Blizzard Challenge和Voice Conversion Challenge中,参赛团队基于此数据提出了若干创新的声学模型与后处理算法。在学术论文中,该数据集频繁被引用于低资源TTS的跨语言知识蒸馏、零样本语音克隆及以音素为单位的细粒度时长建模等前沿课题,有力推动了该领域的理论发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作