nepali-asr-data-noisy
收藏Hugging Face2026-03-05 更新2026-03-06 收录
下载链接:
https://huggingface.co/datasets/gam30/nepali-asr-data-noisy
下载链接
链接失效反馈官方服务:
资源简介:
Nepali Noisy Speech Evaluation Dataset 是一个用于尼泊尔语(天城文脚本)自动语音识别(ASR)的多条件噪声语音评估数据集。该数据集基于 FLEURS 尼泊尔语测试集,包含 726 条语音样本,每条样本在 31 种不同条件下(1 种干净语音 + 6 种噪声类型 × 5 种信噪比水平)进行录制。音频格式为 16 位 PCM WAV,单声道,采样率 16 kHz。噪声类型包括咖啡馆、人群、混合、交通、白噪声和风声,信噪比水平为 0dB、5dB、10dB、15dB 和 20dB。数据集包含以下字段:音频文件路径、话语 ID、转写文本(尼泊尔语天城文)、噪声类型、信噪比(dB)、条件标签和数据集划分(测试集)。该数据集适用于噪声鲁棒性 ASR 系统的评估和训练。
创建时间:
2026-03-03
原始信息汇总
Nepali Noisy Speech Evaluation Dataset 数据集概述
基本描述
- 数据集名称:Nepali Noisy Speech Evaluation Dataset
- 数据集地址:https://huggingface.co/datasets/gam30/nepali-asr-data-noisy
- 许可协议:MIT
- 主要任务类别:自动语音识别
- 语言:尼泊尔语
- 相关标签:speech, noise-robust-asr, audio, snr, nepali, devanagari, fleurs
- 数据规模:10K < n < 100K
数据来源与构成
- 数据来源:基于 FLEURS 数据集的尼泊尔语测试集
- 基线模型:ai4bharat/indic-conformer-600m-multilingual
- 总样本数:每个条件 726 条样本
- 音频格式:16-bit PCM WAV,单声道,16 kHz 采样率
- 数据划分:仅包含测试集,共 726 个样本
噪声条件
数据集包含 31 种条件:1 种干净语音条件 + 6 种噪声类型 × 5 种信噪比水平。
- 干净条件:clean
- 噪声类型:cafe, crowd, mixed, traffic, white, wind
- 信噪比水平:0 dB, 5 dB, 10 dB, 15 dB, 20 dB
数据结构
数据集包含以下特征:
- audio:音频数据
- utterance_id:样本ID,格式为从“0000”到“0725”的零填充索引
- transcription:尼泊尔语文本标注
- noise_type:噪声类型
- snr_db:信噪比值,干净语音为 -1
- condition:完整条件标签
- split:数据划分名称
配置与加载
数据集提供多种配置,可通过 load_dataset 函数加载。
- 配置示例:clean, cafe_0dB, cafe_5dB, ..., wind_20dB
- 加载方式:支持加载单个条件、所有条件或合并特定条件。
文件格式
元数据文件为 JSON Lines 格式,每条记录包含音频文件路径及所有特征信息。音频文件路径为相对于数据集根目录的相对路径。
搜集汇总
数据集介绍
构建方式
在语音识别研究领域,构建具备噪声鲁棒性的评估数据集对于推动低资源语言技术进步至关重要。该数据集以FLEURS尼泊尔语测试集为基础,精心选取了726条原始语音样本,通过引入六种典型环境噪声类型——包括咖啡馆、人群、混合、交通、白噪声和风声,并设定从0dB至20dB的五个信噪比等级,系统性地合成了多条件噪声语音。每个噪声条件下的语音均保留了原始转录文本,确保了评估数据的真实性与一致性,从而为尼泊尔语自动语音识别系统在复杂声学环境下的性能评估提供了标准化基准。
特点
该数据集的核心特征在于其精心设计的噪声条件多样性,涵盖了从社交场景到自然环境的多维度声学干扰,每种噪声类型均配以精确控制的信噪比梯度,形成了31种独特的评估条件。数据集不仅提供了高质量的尼泊尔语语音音频及其对应的天城文转录,还详细标注了每条样本的噪声类型与信噪比数值,使得研究者能够深入分析不同噪声特性对语音识别模型的影响。这种结构化的设计使得数据集能够全面评估模型的噪声鲁棒性,为开发适应现实复杂环境的语音技术提供了关键资源。
使用方法
研究者可通过Hugging Face的datasets库便捷地加载该数据集,支持按特定噪声条件单独调用或一次性加载全部配置。在具体应用中,用户可依据实验需求选择单一条件如'cafe_0dB'进行针对性测试,或通过数据集拼接功能整合多个信噪比等级以模拟动态噪声环境。每条数据样本均包含可直接访问的音频对象、转录文本及元数据,便于进行端到端的模型评估与错误分析,为噪声鲁棒语音识别算法的开发与比较提供了高效、标准化的实验平台。
背景与挑战
背景概述
在语音识别技术迅速发展的背景下,针对低资源语言的研究日益受到重视。尼泊尔语作为一种使用天城体文字的语言,其自动语音识别系统在噪声环境下的鲁棒性评估面临数据稀缺的困境。Nepali Noisy Speech Evaluation Dataset应运而生,该数据集基于FLEURS尼泊语测试集构建,由相关研究机构于近期发布,旨在为噪声鲁棒性语音识别研究提供标准化的评估基准。其核心研究问题聚焦于多噪声条件下尼泊尔语语音识别的性能评估,通过引入咖啡馆、人群、交通等多种噪声类型及不同信噪比级别,系统性地模拟真实世界复杂声学场景,对推动南亚语言语音技术发展具有显著影响力。
当前挑战
该数据集致力于解决噪声鲁棒性自动语音识别领域的核心挑战,即在复杂声学干扰下保持高精度语音转文本性能。具体而言,挑战体现在模型需区分语音信号与背景噪声的频谱特征,并适应尼泊尔语特有的音系和声学特性。在构建过程中,挑战主要来源于噪声合成的真实性与可控性平衡,需确保添加的噪声类型覆盖常见环境且信噪比级别具有代表性,同时保持原始语音的语言内容和清晰度。此外,从FLEURS基础数据中提取并处理尼泊尔语语音,涉及音频格式统一、文本转录对齐及噪声混合的技术实现,这些步骤均要求高度的精确性和一致性,以保障数据集的科学价值与实用性。
常用场景
经典使用场景
在自动语音识别领域,噪声鲁棒性研究常面临现实环境中复杂声学干扰的挑战。Nepali Noisy Speech Evaluation Dataset通过系统性地引入咖啡馆、人群、交通等多种噪声类型,并精确控制信噪比水平,为评估和优化尼泊尔语ASR模型在嘈杂条件下的性能提供了标准化测试平台。该数据集最经典的使用场景是作为基准测试集,用于对比不同噪声鲁棒性算法在尼泊尔语上的表现,帮助研究者量化模型在特定噪声环境下的识别准确率下降程度,从而指导模型改进方向。
衍生相关工作
围绕该数据集衍生的经典工作主要集中在噪声鲁棒性算法创新与多语言ASR模型适配两个方面。部分研究利用其多条件噪声数据,开发了针对特定噪声类型的端到端语音识别增强架构;另一些工作则将其与FLEURS等干净语音数据集结合,训练出更具泛化能力的多语言Conformer或Transformer模型。这些工作不仅提升了尼泊尔语ASR的技术水平,也为其他低资源语言的噪声鲁棒性研究提供了可迁移的方法论框架。
数据集最近研究
最新研究方向
在低资源语言自动语音识别领域,噪声鲁棒性研究正成为推动技术实用化的关键前沿。Nepali Noisy Speech Evaluation Dataset作为尼泊尔语首个多条件噪声评估基准,其最新研究聚焦于跨噪声类型与信噪比水平的模型泛化能力评估。该数据集通过模拟咖啡馆、人群、交通等六种真实噪声环境,为探索基于自监督学习与领域自适应方法提供了精准的实验平台。相关研究不仅助力提升南亚地区多语言语音技术的包容性,更在数字普惠与语音技术全球化部署的热潮中,为低资源语言在复杂声学场景下的应用奠定了实证基础。
以上内容由遇见数据集搜集并总结生成



