openSLR-Nepali
收藏Hugging Face2025-11-30 更新2025-12-01 收录
下载链接:
https://huggingface.co/datasets/Aananda-giri/openSLR-Nepali
下载链接
链接失效反馈官方服务:
资源简介:
这是一个来自OpenSLR的尼泊尔语语音数据集的预处理版本,适用于训练包括自动语音识别(ASR)和文本到语音(TTS)在内的语音模型。数据集包含118,231个音频文件,总时长为57.34小时,采样率为16kHz,单声道格式为WAV。预处理步骤包括文本清洗和标准化、数字到文本的转换、音频质量过滤和增强等。数据集的结构包括一个包含文件名、转录文本、时长、采样率、性别、音质和信噪比的metadata.csv文件,以及一个包含所有音频文件的audio目录。
创建时间:
2025-11-17
原始信息汇总
OpenSLR Nepali Speech Dataset (Preprocessed) 数据集概述
数据集基本信息
- 语言:尼泊尔语 (ne)
- 许可证:CC BY-SA 4.0
- 任务类别:自动语音识别、文本转语音
- 数据集名称:OpenSLR Nepali Speech Dataset (Preprocessed)
- 数据规模:10K-100K样本
数据集统计信息
- 音频文件总数:118,231个
- 总时长:57.34小时
- 采样率:16kHz
- 声道:单声道
- 格式:WAV
预处理流程
文本预处理
- 文本清洗和标准化
- 数字到文本转换
- 尼泊尔语字符标准化
音频预处理
- 重采样至16kHz单声道
- 质量过滤(时长0.5-20秒,信噪比>10dB)
- 静音检测和处理
- RMS归一化
- 预加重滤波(系数=0.97)
质量检查
- 验证所有音频文件存在
- 移除空转录文本
- 时长验证
数据集结构
. ├── metadata.csv # 包含文件名称、转录文本、时长、采样率、性别、质量、信噪比 └── audio/ # 包含所有音频文件的目录 └── *.wav # 音频文件
元数据格式
| 列名 | 描述 |
|---|---|
| file_name | 音频文件相对路径 (audio/文件名.wav) |
| transcript | 尼泊尔语文本转录 |
| duration | 音频时长(秒) |
| sample_rate | 采样率 (16000 Hz) |
| gender | 说话者性别 (男/女) |
| quality | 音频质量评级 (高/低) |
| snr_db | 信噪比(分贝) |
使用方式
python from datasets import load_dataset
加载数据集
dataset = load_dataset("Aananda-giri/openSLR-Nepali")
访问样本
sample = dataset[train][0] print(f"Audio: {sample[audio]}") print(f"Transcript: {sample[transcript]}") print(f"Duration: {sample[duration]} seconds")
应用场景
- 自动语音识别 (ASR):训练将尼泊尔语语音转录为文本的模型
- 文本转语音 (TTS):训练从文本合成尼泊尔语语音的模型
- 语音研究:研究尼泊尔语语音学、韵律学和声学特征
数据来源
- 原始数据集来源:https://www.openslr.org/
引用信息
bibtex @misc{openslr_nepali, title={Nepali Speech Dataset}, author={OpenSLR}, howpublished={url{https://www.openslr.org/}}, year={2020} }
预处理详情
- 预处理日期:2025-11-17
- 预处理流程包括:尼泊尔语文本标准化、音频质量过滤和增强、16kHz单声道格式标准化、词汇和字符映射生成
搜集汇总
数据集介绍

构建方式
在语音技术领域,数据质量直接影响模型性能。该数据集基于OpenSLR原始语料,通过多阶段预处理流程构建:文本层面实施字符标准化与数字转写,音频层面统一采样至16kHz单声道格式,并运用信噪比阈值与时长区间进行质量筛选。预处理过程同步整合了静音检测、响度均衡与预加重滤波等技术,最终形成包含11.8万条音频、总时长57小时的标准化语料库。
特点
作为尼泊尔语语音研究的核心资源,本数据集具备多重技术特性。其音频样本均标注发音人性别与质量评级,文本转录涵盖尼泊尔语字符标准化处理结果。数据维度包含信噪比数值与时长参数,支持基于声学特征的细分研究。所有音频文件以WAV格式存储,配套元数据文件系统记录音频路径、转写文本及声学参数,为多模态语音分析提供结构化基础。
使用方法
针对语音模型开发需求,该数据集可通过HuggingFace生态快速加载。使用者调用datasets库加载指令即可获取训练集,其中每条数据包含音频数组、转写文本及元数据字段。该设计兼容端到端语音识别与语音合成任务,研究人员可直接提取音频波形与对应文本标签,或基于性别字段进行说话人分类研究,亦能借助质量评级实现数据分级训练策略。
背景与挑战
背景概述
随着语音技术的快速发展,低资源语言处理逐渐成为计算语言学领域的重要研究方向。OpenSLR尼泊尔语语音数据集由OpenSLR平台于2020年发布,汇集了超过11万条尼泊尔语语音样本,总时长约57小时。该数据集由国际语言资源社区主导构建,核心目标在于解决尼泊尔语这类资源稀缺语言的自动语音识别与文本转语音技术难题。通过系统采集真实场景的语音数据,该资源显著推动了南亚语系语音模型的开发进程,为跨语言语音技术研究提供了重要基础支撑。
当前挑战
在构建过程中面临多重技术挑战:原始语音数据存在采样率不一致和背景噪声干扰,需通过重采样与信噪比过滤实现标准化;尼泊尔语特有的发音特征和文字转写规则要求设计专门的文本清洗流程,包括数字转换和字符标准化。从领域问题视角,该数据集旨在突破低资源语言语音处理的瓶颈,其中方言变体识别、连续语音切分、以及复杂声学环境下的语音特征提取构成主要技术难点,这些挑战直接关系到跨语言语音模型的泛化能力与实用效能。
常用场景
经典使用场景
在尼泊尔语语音技术研究领域,该数据集作为标准化语料库,主要应用于自动语音识别系统的训练与评估。研究者通过其包含的11.8万条语音样本构建端到端神经网络模型,实现从尼泊尔语语音到文本的精准转换。该数据集经过严格的音频质量筛选与文本标准化处理,为声学建模和语言建模提供了高质量的平行语料,显著提升了低资源语言场景下的语音识别性能。
解决学术问题
该数据集有效解决了尼泊尔语作为低资源语言在语音技术研究中面临的数据稀缺问题。通过提供经过预处理的标准化语料,支持研究者开展尼泊尔语语音学特性分析、声学模型适应性研究以及跨语言迁移学习等关键课题。其包含的性别标注与信噪比参数为语音质量评估提供了量化依据,推动了低资源语言语音技术研究范式的标准化进程。
衍生相关工作
该数据集催生了多项经典研究工作,包括基于Transformer架构的尼泊尔语端到端语音识别系统、结合迁移学习的多语言语音合成模型,以及针对低资源语言的声学特征增强算法。这些研究不仅推动了尼泊尔语语音技术发展,更为其他低资源语言的语音处理提供了可复用的技术框架,形成了跨语言语音技术研究的重要分支。
以上内容由遇见数据集搜集并总结生成



