MasriSpeech-Full
收藏Hugging Face2025-08-03 更新2025-08-04 收录
下载链接:
https://huggingface.co/datasets/NightPrince/MasriSpeech-Full
下载链接
链接失效反馈官方服务:
资源简介:
MasriSpeech-Full是一个大规模的埃及阿拉伯语音数据集,包含52,914个专业标注的音频样本,总时长超过3,100小时。数据集旨在推动方言阿拉伯语的自动语音识别和语音处理研究,支持高质量16kHz语音录制和自然对话风格,适用于自动语音识别、方言研究、语音合成等领域。
MasriSpeech-Full is a large-scale Egyptian Arabic speech dataset comprising 52,914 professionally annotated audio samples with a total duration exceeding 3,100 hours. This dataset aims to advance research on automatic speech recognition (ASR) and speech processing for dialectal Arabic, supports high-quality 16kHz speech recordings and natural conversational styles, and is applicable to domains such as automatic speech recognition, dialect research, and speech synthesis.
创建时间:
2025-08-02
原始信息汇总
MasriSpeech-Full 数据集概述
基本描述
- 数据集名称: MasriSpeech-Full: Large-Scale Egyptian Arabic Speech Corpus
- 数据类型: 语音(音频)与文本转录
- 语言: 埃及阿拉伯语 (arz)、阿拉伯语 (ar)
- 许可证: Apache 2.0
- 发布年份: 2025
- 发布者: Yahya Muhammad Alnwsany
数据集规模
- 总样本数: 52,914
- 训练集: 50,715 样本
- 验证集: 2,199 样本
- 总时长: ~3,100 小时
- 采样率: 16 kHz
- 格式: Parquet
- 数据集大小: 11.57 GB
- 下载大小: 10.26 GB
数据结构
特征字段
- audio: 音频特征对象,包含:
Array: 原始语音波形(1D 浮点数组)Path: 相对音频路径Sampling_rate: 16,000 Hz
- transcription: 埃及阿拉伯语转录文本(字符串)
数据划分
| 划分 | 样本数 | 大小 (GB) | 平均词数 | 空转录 | 非阿拉伯语 |
|---|---|---|---|---|---|
| 训练集 | 50,715 | 10.42 | 13.34 | 6 | 13 |
| 验证集 | 2,199 | 0.36 | 9.60 | 0 | 1 |
语言统计
训练集
- 高频词: في (20,250), و (16,977)
- 高频二元组: (إن, أنا) (1,305)
- 词汇量: 38,451
- 独特说话人: 1,142
验证集
- 高频词: في (519), أنا (412)
- 高频二元组: (شاء, الله) (63)
- 词汇量: 7,892
- 独特说话人: 98
使用方式
加载数据集
python from datasets import load_dataset ds = load_dataset(NightPrince/MasriSpeech-Full, split=train, streaming=True)
预处理示例
python from transformers import Wav2Vec2Processor processor = Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-base-960h")
模型微调
python from transformers import AutoModelForCTC, TrainingArguments model = AutoModelForCTC.from_pretrained("facebook/wav2vec2-base-960h")
引用格式
bibtex @dataset{masrispeech_full, author = {Yahya Muhammad Alnwsany}, title = {MasriSpeech-Full: Large-Scale Egyptian Arabic Speech Corpus}, year = {2025}, publisher = {Hugging Face}, url = {https://huggingface.co/collections/NightPrince/masrispeech-dataset-68594e59e46fd12c723f1544} }
应用场景
- 埃及阿拉伯语自动语音识别 (ASR)
- 方言阿拉伯语语言学研究
- 语音合成与语音克隆
- 低资源语言机器学习模型训练与基准测试
搜集汇总
数据集介绍

构建方式
MasriSpeech-Full数据集的构建过程体现了对埃及阿拉伯语语音资源的系统性采集与标注。该数据集通过专业录音设备收集了超过3,100小时的自然对话语音,采样率为16kHz,确保了音频质量。所有语音样本均经过母语人士的严格转写,形成高质量的语音-文本对齐数据。数据集采用科学的划分方法,将52,914个样本分为50,715条训练数据和2,199条验证数据,保证了数据分布的均衡性。数据以Parquet格式存储,总大小达11.57GB,采用Apache 2.0开源协议发布。
特点
该数据集作为目前最大的开源埃及阿拉伯语语音语料库,具有显著的方言特色和语言学价值。其核心特征包括:覆盖埃及阿拉伯语日常会话的广泛词汇,包含38,451个训练集词汇;语音样本来自1,142位不同说话人,体现了发音的多样性;文本转录保留了方言特有的语法结构和表达方式。数据集特别注重语音质量与文本标注的准确性,平均每条语音包含13.34个单词,为空缺和非阿拉伯语内容设置了专门标注。这些特性使其成为研究方言语音识别和低资源语言处理的理想选择。
使用方法
该数据集可通过Hugging Face平台便捷加载,支持流式读取以处理大规模数据。典型使用流程包括:使用datasets库加载音频和对应转录;通过Wav2Vec2等语音处理框架进行特征提取;构建端到端的语音识别模型进行微调训练。数据集特别适配transformers库中的语音处理工具链,可方便地实现从音频预处理到模型评估的全流程。针对埃及阿拉伯语的方言特性,建议在预处理阶段特别注意文本的正则化处理。数据集提供的标准划分方案可直接用于模型验证,其丰富的元数据支持各类统计分析需求。
背景与挑战
背景概述
MasriSpeech-Full数据集是当前最大规模的开源埃及阿拉伯语语音语料库,由Yahya Muhammad Alnwsany等人于2025年发布。该数据集旨在推动方言阿拉伯语自动语音识别(ASR)及语音处理领域的研究进展,填补了阿拉伯语方言语音资源匮乏的空白。数据集包含52,914条专业标注的语音样本,总时长超过3,100小时,涵盖自然对话场景下的埃及阿拉伯语变体。作为低资源语言研究的重要基础设施,该数据集为语音技术在处理方言变体、口音差异等语言学挑战方面提供了关键支持,对中东地区语言技术发展具有显著推动作用。
当前挑战
该数据集主要面临两大核心挑战:在领域问题层面,埃及阿拉伯语作为阿拉伯语的重要方言变体,其语音识别需解决方言特有音系特征、非标准词汇以及口语化表达等难题,传统ASR模型对此类语言变体的泛化能力普遍不足。在构建过程中,专业标注团队需克服方言转写标准不统一、口语现象(如连读、省略)标注困难等技术瓶颈,同时还需确保1,142名发音人的性别、年龄及地域分布平衡。此外,处理长达3,100小时音频的质量控制与存储优化,以及应对低资源语言标注成本高昂等问题,均为数据集构建过程中的关键挑战。
常用场景
经典使用场景
在阿拉伯语方言语音识别研究中,MasriSpeech-Full数据集作为埃及阿拉伯语的大规模语音语料库,被广泛用于训练和评估自动语音识别(ASR)系统。其高质量的16kHz语音样本和专业的转写标注,为研究者提供了丰富的方言语音数据,特别适用于低资源语言环境下的模型训练。
实际应用
在实际应用中,MasriSpeech-Full为埃及地区的语音交互系统提供了关键支持。基于该数据集训练的ASR模型已成功应用于智能客服、语音助手等场景,显著提升了埃及方言的识别准确率。同时,该数据集也为语音合成系统提供了丰富的发音素材,改善了合成语音的自然度。
衍生相关工作
围绕MasriSpeech-Full数据集,已衍生出多项重要研究工作。其中包括基于wav2vec2架构的埃及阿拉伯语ASR系统优化、方言语音特征提取算法的改进,以及跨方言语音转换技术的探索。这些工作不仅验证了数据集的可靠性,也进一步拓展了其在语音技术领域的应用边界。
以上内容由遇见数据集搜集并总结生成



