NADI2025_subtask2_ASR_Test

Name: NADI2025_subtask2_ASR_Test
Creator: UBC Deep Learning & NLP Lab
Published: 2025-07-23 16:21:14
License: 暂无描述

Hugging Face2025-07-23 更新2025-07-24 收录

下载链接：

https://huggingface.co/datasets/UBC-NLP/NADI2025_subtask2_ASR_Test

下载链接

链接失效反馈

官方服务：

资源简介：

NADI-2015任务2的多方言阿拉伯语语音识别测试集，旨在开发能够跨方言转录阿拉伯语音的自动语音识别系统。数据集包含来自不同地区的阿拉伯语音音频文件，以及对应的ID和持续时间信息。

提供机构：

UBC Deep Learning & NLP Lab

创建时间：

2025-07-23

原始信息汇总

数据集概述

基本信息

数据集名称: NADI2025_subtask2_ASR_Test
任务类别: 自动语音识别 (ASR)
语言: 阿拉伯语 (ar)
标签: ASR, Arabic, NLP, Speech, ArabicNLP, ArabicSpeech, ArabicDialects, Dialects
许可证: BigScience OpenRAIL-M (仅限学术研究和非商业用途)

数据集内容

目的: 为NADI-2015 Subtask-2 (多方言阿拉伯语自动语音识别) 提供测试集。
配置:
- Algeria: 727个测试样本，533734240.6684946字节
- Egypt: 1600个测试样本，1210280480.4050531字节
- Jordan: 1600个测试样本，812065300.9864838字节
- Mauritania: 1600个测试样本，1033711873.567804字节
- Morocco: 1600个测试样本，999330030.6658275字节
- Palestine: 900个测试样本，841986868.6625274字节
- UAE: 1600个测试样本，1220055474.1781883字节
- Yemen: 1183个测试样本，964711338.6586182字节
特征:
- audio (音频)
- ID (字符串)
- duration (浮点数)

访问方式

注册链接: https://forms.gle/WHsyFMtyaewufN7E8
Codabench竞赛页面: https://www.codabench.org/competitions/8587
官方网站: https://nadi.dlnlp.ai/2025/

联系方式

网站: https://nadi.dlnlp.ai/2025/
注册表单: https://forms.gle/WHsyFMtyaewufN7E8
Google Group: https://groups.google.com/u/4/g/nadi-shared-task-2025
邮箱: NadiSharedTask@gmail.com

引用

bibtex @article{talafha2024casablanca, title={Casablanca: Data and Models for Multidialectal Arabic Speech Recognition}, author={Talafha, Bashar and Kadaoui, Karima and Magdy, Samar Mohamed and Habiboullah, Mariem and Chafei, Chafei Mohamed and El-Shangiti, Ahmed Oumar and Zayed, Hiba and Alhamouri, Rahaf and Assi, Rwaa and Alraeesi, Aisha and others}, journal={arXiv preprint arXiv:2410.04527}, year={2024} }

许可证说明

用途限制: 仅限学术研究和非商业用途。
禁止行为: 未经书面许可，禁止商业用途、重新分发或集成到产品中。

搜集汇总

数据集介绍

构建方式

NADI2025_subtask2_ASR_Test数据集作为阿拉伯语多方言自动语音识别任务的测试集，其构建过程充分考虑了阿拉伯语方言的多样性和复杂性。数据集涵盖了阿尔及利亚、埃及、约旦、毛里塔尼亚、摩洛哥、巴勒斯坦、阿联酋和也门等八个地区的方言样本，通过精心设计的录音采集和标注流程，确保了语音数据的代表性和准确性。每个方言样本均配有唯一的ID标识和时长信息，便于后续的分析和模型评估。

特点

该数据集以其广泛的方言覆盖和高质量的语音数据脱颖而出，包含了超过10,000条语音样本，总时长超过数千小时。每个样本均经过严格的质控流程，确保音频清晰度和方言纯正性。数据集特别注重方言间的语音差异，为研究者提供了丰富的语音变异样本，有助于开发更具鲁棒性的多方言语音识别系统。数据集的标准化结构和元数据设计也极大地方便了后续的科研使用。

使用方法

研究人员可通过注册NADI共享任务获取该测试集的使用权限，数据集采用分地区配置的方式组织，便于针对特定方言进行研究。使用时应严格遵守BigScience OpenRAIL-M许可协议，仅限于学术研究用途。数据集可直接加载至主流语音处理框架，其标准化的音频格式和元数据结构支持快速集成到现有语音识别模型的评估流程中，特别适合用于多方言ASR系统的零样本评估和领域适应性研究。

背景与挑战

背景概述

NADI2025_subtask2_ASR_Test数据集是NADI-2015共享任务中多方言阿拉伯语自动语音识别（ASR）的子任务测试集，由阿拉伯语自然语言处理领域的多个研究机构联合构建。该数据集旨在解决阿拉伯语方言多样性带来的语音识别挑战，覆盖了阿尔及利亚、埃及、约旦等多个阿拉伯国家的方言语音数据。作为阿拉伯语语音处理领域的重要资源，该数据集通过提供标准化的测试基准，推动了跨方言语音识别技术的发展，并为研究者提供了评估模型泛化能力的平台。

当前挑战

该数据集面临的挑战主要体现在两方面：领域问题方面，阿拉伯语方言间存在显著的音系、词汇和语法差异，传统ASR系统难以准确捕捉这些细微变化，导致跨方言识别性能下降；数据构建方面，阿拉伯语方言标注资源稀缺，且方言语音数据采集需要平衡地域覆盖与发音人多样性，同时需解决语音质量不一致和背景噪声干扰等技术难题。

常用场景

经典使用场景

在阿拉伯语多方言自动语音识别（ASR）研究领域，NADI2025_subtask2_ASR_Test数据集为研究者提供了丰富的测试资源，涵盖阿尔及利亚、埃及、约旦等多个阿拉伯国家的方言语音样本。该数据集主要用于评估和比较不同ASR模型在处理阿拉伯语方言语音时的性能，特别是在跨方言场景下的泛化能力。通过该数据集，研究者能够深入探索方言间的语音变异对识别准确率的影响。

实际应用

在实际应用中，该数据集支撑的ASR技术可广泛应用于阿拉伯世界的智能语音助手、自动字幕生成和语音转写服务。不同方言的高质量语音数据使得开发的系统能够更好地服务于各地区的用户，提升语音交互的自然度和准确性。这对于促进阿拉伯地区的数字包容性和语言技术普及具有重要意义。

衍生相关工作

基于该数据集，研究者已开展多项创新工作，包括开发针对阿拉伯方言的端到端ASR模型、探索迁移学习在跨方言识别中的应用，以及设计鲁棒性更强的声学模型。相关成果发表在语音处理顶级会议和期刊上，推动了整个阿拉伯语语音处理领域的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集