nepali-asr-test-set-all-noisy

Hugging Face2026-04-05 更新2026-04-06 收录

下载链接：

https://huggingface.co/datasets/gam30/nepali-asr-test-set-all-noisy

下载链接

链接失效反馈

官方服务：

资源简介：

Nepali ASR Test Set - All Noisy 是一个专为自动语音识别（ASR）研究和测试而设计的尼泊尔语音数据集，包含726个带有合成噪声的语音样本。这些样本源自Google的FLEURS测试集，经过噪声增强处理，模拟了真实世界中的挑战性声学环境。数据集中的每个样本包含三个主要特征：音频文件路径（WAV格式，16 kHz采样率）、尼泊尔语文本转录（Unicode Devanagari-derived脚本）和音频时长（秒）。所有音频样本均混入了环境噪声（如人群、交通、建筑和风声），信噪比（SNR）为40%。该数据集适用于鲁棒ASR模型训练、噪声鲁棒性测试、领域适应、基准评估和语音增强研究。数据集总时长约2.28小时，平均每个样本时长22.4秒，采用CC-BY-4.0许可。

创建时间：

2026-03-31

原始信息汇总

Nepali ASR Test Set - All Noisy 数据集概述

数据集基本信息

数据集名称：Nepali ASR Test Set - All Noisy
发布者：sangam
发布年份：2026
数据集ID：gam30/nepali-asr-test-set-all-noisy
最后更新：2024
数据版本：1.0
许可证：CC-BY-4.0 (继承自FLEURS数据集)

数据内容与来源

语言：尼泊尔语 (Nepali)
数据来源：源自FLEURS (Google Federated Learning for Emoji Recognition via Speech) 测试集
样本数量：726个音频样本
数据划分：仅包含一个“train”划分
总音频时长：约2.28小时
平均样本时长：约22.4秒
最短样本时长：约9.6秒
最长样本时长：约37.2秒

音频特征

音频格式：WAV
采样率：16,000 Hz (16 kHz)
声道：单声道 (Mono)
噪声覆盖：100%的样本均包含合成噪声
信噪比：40%噪声混合比 (Signal-to-Noise Ratio at 40%)

噪声特性

噪声类型：合成环境噪声
噪声来源：
- 人群噪声 (背景对话、环境杂音)
- 交通噪声 (车辆引擎、喇叭、道路声音)
- 施工噪声 (机械、工具、设备)
- 风声 (室外风、空气流动)

数据集结构特征

每个样本包含以下三个字段：

audio (字符串)：带噪声的WAV音频文件路径。格式为 noisy_100/{ID:04d}.wav，例如 noisy_100/0000.wav。
text (字符串)：语音的完整尼泊尔语转录文本，使用Unicode天城文衍生文字。
duration (浮点数)：音频时长，单位为秒。

技术规格

下载大小：58,714字节
数据集大小：261,808字节
特征定义：
- audio：字符串类型
- text：字符串类型
- duration：float64类型

主要用途

本数据集适用于：

鲁棒性ASR模型训练：在带噪声语音上训练模型。
噪声鲁棒性测试：评估ASR系统在噪声条件下的性能。
领域自适应：针对尼泊尔语对预训练模型进行微调。
基准评估：创建公平性和鲁棒性基准。
语音增强研究：测试去噪技术。

引用信息

如需在研究中引用此数据集，请使用： bibtex @dataset{nepali_asr_noisy_2024, title={Nepali ASR Test Set - All Noisy}, author={sangam}, year={2026}, publisher={Hugging Face}, url={https://huggingface.co/datasets/gam30/nepali-asr-test-set-all-noisy} }

原始FLEURS数据集引用： bibtex @dataset{fleurs2022, title={FLEURS: Few-shot Learning Evaluation of Universal Representations of Speech}, author={Conneau, Alexei and others}, year={2022}, publisher={Google Research} }

质量保证

✓ 所有726个音频文件均已验证并可访问。
✓ 所有转录文本均为UTF-8 Unicode格式。
✓ 时长元数据已计算并验证。
✓ 元数据为JSONL格式，具有一致的模式。

相关资源

FLEURS数据集：https://github.com/google/fleurs

搜集汇总

数据集介绍

构建方式

在自动语音识别领域，构建能够模拟真实噪声环境的测试集对于评估模型鲁棒性至关重要。该数据集以FLEURS测试集为基础，通过系统化的噪声合成方法构建而成。具体而言，研究者从FLEURS数据集中选取了726个尼泊尔语语音样本，并对其全部施加了合成环境噪声增强。噪声类型涵盖了人群交谈、交通车辆、建筑施工以及风声等多种真实场景声源，并以40%的信噪比水平均匀混合至所有语音样本中，从而生成了一个完全覆盖噪声的标准化测试集。

特点

本数据集的核心特征在于其全面且可控的噪声模拟设计。所有726个样本均包含合成环境噪声，确保了测试条件的一致性。音频采用16kHz采样率的WAV格式，每条数据均包含音频文件路径、采用梵文衍生文字书写的完整尼泊尔语转录文本以及以秒为单位的精确时长信息。样本时长分布在9.6秒至37.2秒之间，平均时长约为22.4秒，总时长约2.28小时，为语音识别研究提供了具有挑战性的声学环境模拟。

使用方法

研究人员可通过Hugging Face的datasets库便捷加载此数据集。使用load_dataset函数并指定数据集路径即可获取包含训练分割的数据对象。数据集支持直接访问音频路径、文本和时长字段，也可通过cast_column方法将音频列转换为Audio特征，以获取原始波形数组和采样率信息。结合librosa等音频处理库，用户可进一步进行音频加载与分析。该数据集适用于噪声鲁棒性测试、领域自适应微调、语音增强算法评估以及构建公平性基准等多个研究场景。

背景与挑战

背景概述

在自动语音识别（ASR）技术日益普及的背景下，针对低资源语言的语音数据处理成为研究热点。Nepali ASR Test Set - All Noisy 数据集于2024年由研究人员sangam基于Google的FLEURS测试集构建而成，专注于尼泊尔语语音识别任务。该数据集包含726条带有合成环境噪声的音频样本，旨在模拟真实世界中的复杂声学环境，核心研究问题在于提升ASR系统在噪声条件下的鲁棒性与泛化能力。通过引入人群、交通、建筑和风声等多种噪声源，并以40%的信噪比进行混合，该数据集为尼泊尔语ASR模型的评估与优化提供了重要基准，对推动多语言语音技术公平性与适应性具有显著影响力。

当前挑战

该数据集旨在解决自动语音识别领域在噪声环境下的鲁棒性问题，其核心挑战在于如何准确识别并转录混杂多种环境噪声的尼泊尔语语音，尤其是在信噪比较低（40%）的条件下保持高识别率。构建过程中的挑战包括：需从FLEURS原始数据中筛选并合成具有代表性的噪声类型，确保噪声覆盖所有样本且混合比例一致；同时，维护转录文本的准确性及音频格式的标准化，以支持可靠的模型训练与评估。这些挑战共同指向了低资源语言在复杂声学场景下的数据处理与模型适配难题。

常用场景

衍生相关工作

基于该数据集，衍生了一系列经典研究工作，主要集中在噪声鲁棒ASR模型的微调与评估上。例如，研究人员利用其进行跨语言预训练模型的适应实验，探索噪声条件下的领域迁移策略。此外，该数据集常被用于构建尼泊尔语ASR的基准测试，推动了相关开源工具和框架的开发，并在多语言语音技术社区中激发了关于低资源语言噪声处理的进一步讨论与创新。

数据集最近研究