five

MasriSpeech-1K

收藏
Hugging Face2025-08-02 更新2025-08-03 收录
下载链接:
https://huggingface.co/datasets/NightPrince/MasriSpeech-1K
下载链接
链接失效反馈
官方服务:
资源简介:
NigMasriSpeech是一个包含1000个埃及阿拉伯语专业标注音频样本的语音数据集,总时长约10小时。适用于自动语音识别和其他语音处理任务。数据集采用16kHz采样率的高质量录音,包含自然对话的埃及阿拉伯语,文件大小紧凑,便于快速实验。数据集遵循Apache 2.0许可协议。

NigMasriSpeech is a speech dataset containing 1,000 professionally annotated audio samples in Egyptian Arabic, with a total duration of approximately 10 hours. It is suitable for automatic speech recognition (ASR) and other speech processing tasks. The dataset features high-quality recordings with a 16kHz sampling rate, containing natural conversational Egyptian Arabic, and has compact file sizes to facilitate rapid experimentation. The dataset is licensed under the Apache 2.0 license.
创建时间:
2025-08-02
原始信息汇总

NigMasriSpeech: Egyptian Arabic Speech Dataset (1K Samples) 数据集概述

数据集基本信息

  • 名称: NigMasriSpeech
  • 类型: 语音数据集
  • 语言: 阿拉伯语 (ar)、埃及阿拉伯语 (arz)
  • 许可证: Apache 2.0
  • 大小类别: 1K<n<10K
  • 任务类别: 自动语音识别、音频分类、任意到任意转换

数据集内容

  • 总样本数: 1,000
  • 采样率: 16 kHz
  • 总时长: ~10小时
  • 格式: Parquet
  • 数据集大小: 220 MB
  • 下载大小: 195 MB
  • 注释: 转录文本

数据集结构

  • 特征:
    • audio: 音频特征对象,包含原始语音波形、相对音频路径和采样率 (16,000 Hz)
    • transcription: 埃及阿拉伯语转录文本
  • 分割:
    • train: 1,000个样本

数据统计

  • 分割分布:
    • Train: 1,000个样本,220 MB,平均单词数13.34,无空文本,无非阿拉伯语文本
  • 语言分析:
    • Top Words: في (202), و (169)
    • Top Bigrams: (إن, أنا) (13)
    • 词汇量: 384
    • 独特说话者: 10

使用示例

  • 加载数据集: python from datasets import load_dataset ds = load_dataset(NightPrince/MasriSpeech-1K, split=train, streaming=True)

  • 预处理: python def prepare_dataset(batch): audio = batch["audio"] inputs = processor.feature_extractor(audio["array"], sampling_rate=audio["sampling_rate"], return_tensors="pt") batch["input_values"] = inputs.input_values[0] labels = processor.tokenizer(batch["transcription"], return_tensors="pt") batch["labels"] = labels["input_ids"][0] return batch

  • 微调ASR模型: python training_args = TrainingArguments( output_dir="./results", learning_rate=2e-5, per_device_train_batch_size=16, num_train_epochs=3, ) trainer = Trainer(model=model, args=training_args, train_dataset=dataset) trainer.train()

引用

bibtex @dataset{nigmasrispeech, author = {Yahya Muhammad Alnwsany}, title = {NigMasriSpeech: Egyptian Arabic Speech Dataset (1K Samples)}, year = {2025}, publisher = {Hugging Face}, url = {https://huggingface.co/collections/NightPrince/masrispeech-dataset-68594e59e46fd12c723f1544} }

使用案例

  • 埃及阿拉伯语的自动语音识别 (ASR) 模型微调
  • 方言阿拉伯语语言学研究
  • 语音合成和语音克隆
  • 低资源语言的机器学习和基准测试
搜集汇总
数据集介绍
main_image_url
构建方式
MasriSpeech-1K数据集聚焦于埃及阿拉伯语这一特定方言领域,通过专业采集与标注流程构建而成。该数据集收录了1000条自然对话场景下的语音样本,总时长约10小时,采样率统一为16kHz以确保音频质量。构建过程中采用标准化流程,由母语人士进行语音采集,并由语言学专家完成文本转写,形成高质量的音频-文本配对数据。所有数据以Parquet格式存储,遵循Hugging Face标准数据结构,便于研究人员直接调用。
特点
该数据集最显著的特点是专注于埃及阿拉伯语这一低资源方言,填补了阿拉伯语方言语音数据的空白。其音频样本呈现自然对话特征,包含丰富的方言词汇和语音现象。技术层面,数据集提供16kHz高保真音频波形和精准转写文本,平均每条语音含13.34个词汇,词汇表覆盖384个独特词汇。数据分布均衡,无空样本或非阿拉伯语混杂,且包含10位不同说话人的语音变异,为语音模型训练提供了必要的多样性。
使用方法
研究人员可通过Hugging Face的datasets库直接加载该数据集,支持流式读取以节省内存。典型应用场景包括端到端语音识别模型训练,使用Wav2Vec2等框架进行微调时,可利用内置处理器完成音频特征提取和文本标记化。数据集已预处理为标准化格式,用户可通过映射函数快速构建模型输入管道。对于方言语音研究,建议结合语言学分析方法,利用其提供的词汇分布统计和n-gram特征进行深入分析。
背景与挑战
背景概述
NigMasriSpeech数据集是专为埃及阿拉伯语自动语音识别(ASR)任务设计的语音语料库,由Yahya Muhammad Alnwsany于2025年发布。该数据集包含1,000条16kHz采样率的高质量语音样本,总时长约10小时,覆盖自然对话场景下的埃及方言阿拉伯语。作为低资源方言语音研究的代表性数据,其Apache 2.0许可协议促进了阿拉伯语语音技术在多领域的应用探索,尤其为方言语音识别模型的训练与评估提供了重要基准。
当前挑战
该数据集面临双重挑战:在领域问题层面,埃及阿拉伯语作为阿拉伯语的重要方言变体,存在显著的地域发音差异和词汇特异性,传统ASR模型难以准确捕捉其音系特征;在构建过程中,专业语言学标注人才的稀缺、方言语音与标准阿拉伯语转写规则的差异,以及低资源语言数据采集的地理限制,均为数据质量控制带来严峻考验。此外,10小时的小规模语料对深度学习模型的泛化能力构成实质性挑战。
常用场景
经典使用场景
在阿拉伯语方言语音识别研究中,MasriSpeech-1K数据集因其专业的埃及阿拉伯语标注而成为经典基准。该数据集特别适用于训练端到端自动语音识别系统,其16kHz采样率的自然对话录音能有效捕捉埃及方言的独特音韵特征。研究人员常将其与通用阿拉伯语数据集结合使用,以探究方言识别中的迁移学习机制。
实际应用
在埃及本土的智能语音助手开发中,该数据集被广泛应用于提升方言交互系统的准确率。电信企业利用其优化方言语音IVR系统,实现公共服务热线的方言自动应答。教育科技公司则基于该数据集开发埃及方言发音评估工具,辅助阿拉伯语学习者掌握方言发音。
衍生相关工作
基于该数据集衍生的经典研究包括开罗大学提出的Dialectal-Wav2Vec2框架,该工作首次实现了埃及方言与标准阿拉伯语的双向转换。另有多篇ACL会议论文以此数据集为基础,探索了方言语音识别中的对抗训练方法。MIT的跨方言语音合成系统MasriTTS也将其作为核心训练数据。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作