cc100-nepali-tts
收藏数据集概述:CC100 Nepali TTS
基本信息
- 数据集名称: CC100 Nepali TTS
- 语言: 尼泊尔语(
ne-NP) - 许可证: CC-BY-4.0
- 任务类别: 文本转语音(Text-to-Speech)
- 标签: 音频、语音、尼泊尔语、TTS、神经TTS
- 数据集大小: 10,000 < 样本数 < 100,000(实际为11,000+)
- ** Hugging Face 数据集地址**: Titung/cc100-nepali-tts
数据来源与生成方式
- 该数据集基于 CC-100 尼泊尔语语料库 生成。
- 使用微软的 ne-NP-HemkalaNeural 神经语音(Azure / Edge TTS)合成音频样本。
- 由 Himalaya-AI 倡议构建,旨在为尼泊尔语言开发开放语音资源。
数据集详情
| 字段 | 值 |
|---|---|
| 语言 | 尼泊尔语(ne-NP) |
| 语音 | ne-NP-female (女性声音) |
| 样本数量 | 11,000+ |
| 音频格式 | 24 kHz · 单声道 · float32 WAV |
| 数据列 | id, text, audio |
| 源文本 | Titung/cc100-nepali-cleaned |
数据集结构
数据集以分片(shard)形式组织,每个 shard 包含 100 个样本,文件格式为 Parquet。结构如下:
data/ shard_0000/ ← 行 0 – 99 shard_0001/ ← 行 100 – 199 ⋮ shard_0109/ ← 行 10900 – 10999 ⋮
数据模式(Schema)
每个样本包含三个字段: python { "id": str, # 格式为 "{row_index:08d}_{md5[:8]}",稳定唯一标识符 "text": str, # 尼泊尔语源文本 "audio": Audio, # HuggingFace Audio 特征,采样率 24 kHz }
数据集划分与统计
| 划分 | 样本数 | 字节数 |
|---|---|---|
| train (训练集) | 100 (实际完整集为11,000+) | 72,871,268 |
注意:README 中展示的下载大小约为 145 MB,数据集大小约为 72 MB,但实际包含 11,000+ 样本。
使用示例
在 Python 中加载数据集: python from datasets import load_dataset ds = load_dataset("Titung/cc100-nepali-tts", split="train") print(len(ds)) print(ds[0])
播放样本音频(在 Jupyter Notebook 中): python import IPython.display as ipd sample = ds[0] ipd.Audio(sample["audio"]["array"], rate=sample["audio"]["sampling_rate"])
引用信息
bibtex @dataset{titung2025cc100nepalitts, author = {Anil Titung}, title = {CC100 Nepali TTS}, year = {2025}, publisher = {Himalaya-AI}, url = {https://huggingface.co/datasets/Titung/cc100-nepali-tts} }




