DATASET-darija

Hugging Face2026-05-06 更新2026-05-07 收录

下载链接：

https://huggingface.co/datasets/mohamedmou/DATASET-darija

下载链接

链接失效反馈

官方服务：

资源简介：

Darija ASR 数据集是一个用于自动语音识别（ASR）任务的数据集，专注于摩洛哥阿拉伯语方言（Darija）。数据集包含163个训练样本，音频格式为16 kHz单声道WAV文件（PCM 16位），存储为Parquet格式。数据来源于经过声学分割的YouTube片段。数据集包含以下字段：音频文件（WAV格式）、校正后的Darija文本转录、视频片段索引和原始音频文件名。该数据集适用于摩洛哥阿拉伯语方言的语音识别研究和开发，采用CC BY 4.0许可协议。

创建时间：

2026-04-26

原始信息汇总

根据您提供的README文件内容，以下是对数据集的详细总结：

数据集概览

Darija ASR Dataset 是一个用于摩洛哥阿拉伯语（Darija）自动语音识别（ASR）任务的小型音频数据集。

基本信息

语言：阿拉伯语（ar）和摩洛哥阿拉伯语（ary，即Darija）
许可证：CC BY 4.0
任务类别：自动语音识别（ASR）
数据集大小：小于1K个样本
标签：darija, moroccan-arabic, asr, speech, audio

数据规模

训练集：共163个样本，占用约27.56 MB
总下载大小：约27.56 MB
总数据集大小：约27.56 MB

数据特征

数据集包含以下四个特征：

特征名	数据类型	描述
`audio`	Audio（采样率16 kHz）	WAV格式，16 kHz单声道PCM 16-bit音频
`sentence`	string	校正后的Darija文本转录
`index`	int64	在视频中的片段索引
`file_name`	string	原始音频文件名

数据来源与格式

来源：从YouTube提取，并经过声学分段处理
存储格式：数据以Parquet格式存储，音频数据内嵌于其中
数据拆分：仅包含一个训练集（train）拆分

使用示例

python from datasets import load_dataset

ds = load_dataset("mohamedmou/DATASET-darija") sample = ds["train"][0]

print(sample["sentence"])

访问音频：sample["audio"]["array"], sample["audio"]["sampling_rate"]

许可证信息

数据集采用 CC BY 4.0 许可证。

搜集汇总

数据集介绍

构建方式

该数据集聚焦于摩洛哥阿拉伯语方言（Darija）的自动语音识别（ASR）任务，从YouTube平台提取经过声学分段的音频片段，以WAV格式保存为16kHz单声道PCM 16-bit音频，并存储于Parquet文件中。每条数据包含音频路径、经校正的文本转录、视频内片段索引及原始音频文件名，共收录163条训练样本，总数据量约27.5MB。

特点

数据集以低资源方言Darija为核心，填补了标准阿拉伯语与摩洛哥本土口语之间的语音资源空白。音频均为16kHz高保真度单声道格式，转录文本经人工校正确保准确性，同时保留了索引与源文件信息以支持溯源。尽管样本量有限，但其构建方式为面向方言的ASR研究提供了可复用的基础数据。

使用方法

通过HuggingFace的datasets库可直接加载数据集，执行`load_dataset("TON_USER/darija-asr")`获取训练集。访问单个样本时，`audio`字段返回包含音频数组和采样率的字典，`sentence`字段提供对应的Darija文本转录，便于快速搭建语音识别模型训练流水线。数据采用CC BY 4.0许可，支持学术与商业应用。

背景与挑战

背景概述

在自然语言处理领域，自动语音识别（ASR）技术对于低资源语言而言始终是一项严峻挑战。摩洛哥阿拉伯语（Darija）作为阿拉伯语的一种口语方言，与标准阿拉伯语在语音、词汇和句法上存在显著差异，且缺乏大规模标注语料库，导致其ASR研究长期滞后。为填补这一空白，Darija ASR数据集应运而生。该数据集由研究者从YouTube视频中提取音频片段，经过声学分割与人工校对，构建了包含163条训练样本的小型ASR语料库，每条音频以16kHz单声道WAV格式存储，并配有准确的Darija转写文本。尽管规模有限，该数据集为摩洛哥阿拉伯语语音识别提供了首份标准化基准，推动了北非方言语音技术的研究进展，对于保护语言多样性、促进区域数字包容性具有开创性意义。

当前挑战

该数据集面临的核心挑战在于所解决的领域问题：摩洛哥阿拉伯语作为一种低资源方言，其语音识别研究长期受限于语言标准化缺失、标注数据匮乏和多方言变体复杂等问题。现有模型多针对标准阿拉伯语或英语设计，迁移至Darija时性能大幅下降。在构建过程中，研究者遭遇了多重困难：首先，YouTube音频来源质量参差不齐，背景噪声与口音差异增加了声学分割的难度；其次，Darija缺乏统一的正字法，转写规则需人工定义，导致标注一致性难以保证；最后，仅163条样本的规模远不足以训练鲁棒的深度学习模型，数据稀疏性极易引发过拟合，严重限制了该数据集在真实场景中的应用价值。

常用场景

经典使用场景

Darija ASR数据集聚焦于摩洛哥阿拉伯语（Darija）这一低资源方言的自动语音识别任务，为语音到文本的转换提供了宝贵资源。该数据集包含163条16kHz单声道WAV格式的音频片段及其对应的手写纠正转录，源自YouTube视频的声学分割。经典使用场景包括训练和评估针对北非阿拉伯方言的端到端语音识别模型，如基于Transformer或CTC架构的系统，尤其适用于处理非标准阿拉伯语方言中的语音变体、连读和口语化表达，填补了标准阿拉伯语与地方方言之间的技术鸿沟。

衍生相关工作

该数据集的诞生催生了一系列相关研究工作，包括基于半监督学习利用未标注方言音频进行自训练的方法、以及结合标准阿拉伯语资源的跨方言多任务学习框架。研究者还将此数据集与更大规模的MSA（现代标准阿拉伯语）数据集或马格里布地区其他方言数据集联合使用，探索语音特征的域适应与对抗性对齐技术。部分经典工作聚焦于迁移学习，通过预训练编码器在低资源方言上微调，显著提升了识别精度。此外，它也被用作基准，对比传统GMM-HMM与端到端系统在非标准方言上的性能差异。

数据集最近研究