Egyptian-Speech-Clean-MGB3

Hugging Face2026-01-29 更新2026-01-30 收录

下载链接：

https://huggingface.co/datasets/MohamedGomaa30/Egyptian-Speech-Clean-MGB3

下载链接

链接失效反馈

官方服务：

资源简介：

MGB3-Egyptian-Clean 数据集是 MGB-3（多类型广播）语料库的精炼和增强版本，专注于埃及阿拉伯语方言。该数据集经过精心预处理，通过结合先进的深度学习去噪技术和自定义语言文本规范化，使其适用于文本到语音（TTS）任务。数据集包含 6500 个样本，每个样本包括以下字段：文本（经过规范化的埃及阿拉伯语转录）、原始音频（原始 MGB-3 音频片段）和分离后的目标音频（经过清理和去噪的 16kHz 音频）。音频预处理使用了 DeepFilterNet 3 进行高质量噪声抑制，文本预处理则通过自定义的埃及阿拉伯语规范化工具处理数字、货币、时间和数学符号等。该数据集适用于文本到语音和自动语音识别任务，语言标签为 ar-EG（埃及阿拉伯语）。

创建时间：

2026-01-29

原始信息汇总

数据集概述：MGB3-Egyptian-Clean

数据集摘要

本数据集是 MGB-3（多类型广播） 语料库的一个精炼和增强版本，专门针对 埃及阿拉伯语 方言。它经过细致的预处理，通过结合先进的深度学习去噪和自定义的语言文本规范化，使其成为“即用于TTS”的数据集。

数据处理流程

为确保生成性语音任务（如VITS或MMS微调）的最高质量，所有6500个样本均应用了以下步骤：

1. 音频增强（DeepFilterNet 3）

使用 DeepFilterNet 3 进行高速、高保真度的噪声抑制。此阶段去除了背景嘶嘶声、嗡嗡声和非平稳噪声，同时保留了埃及说话者声音的自然特征。

目标采样率： 16,000 Hz
去噪引擎： 采用等效矩形带宽掩蔽的深度信号滤波。

2. 埃及语文本规范化（语言学）

标准阿拉伯语NLP工具在处理方言特定的数字和表达时常有不足。我们实现了一个自定义的 埃及阿拉伯语规范化器，将非语言标记转换为口语化的“Masri”词汇。这对于文本到语音的一致性至关重要。 规范化器的主要特性：

数字转文字： 将数字转换为埃及形式（例如，3 → "تلاتة" 而非 "ثلاثة"）。
货币： 支持埃及镑、美元和欧元，并遵循埃及复数规则（例如，"$5" → "خمسة دولار"）。
时间与日期： 将“10:30”规范化为“عشرة ونص”，并将日期规范化为埃及序数月份。
数学符号： 处理百分比（"في المية"）和范围（"من... لحد"）。

数据集模式

数据集中的每一行包含：

text： 规范化的埃及阿拉伯语转录文本（语音转文字）。
original_audio： 原始的MGB-3音频片段。
separated_target_audio： 经过清理、去噪的16kHz音频，针对训练进行了优化。

数据集特征与规模

特征：
- text (dtype: string)
- original_audio (dtype: audio, sampling_rate: 16000)
- separated_target_audio (dtype: audio, sampling_rate: 16000)
数据拆分：
- train 拆分：包含 6547 个样本，数据大小 3134731085 字节。
下载大小： 3035093603 字节
数据集总大小： 3134731085 字节

标签与元数据

语言： ar-EG (arz)
任务： text-to-speech, automatic-speech-recognition
方言： Egyptian
处理： Denoised, Normalized

引用与归属

1. 源仓库（Mohamed Rashad）

本数据集是Mohamed Rashad所托管数据的清理版本，需致谢其收集和托管阿拉伯语MGB-3片段的前期工作：

Mohamed Rashad. (2023). MGB-3 Arabic Dataset for Speech Recognition and Dialect Identification. 地址：https://huggingface.co/datasets/MohamedRashad/MGB-3-Arabic

2. 原始MGB-3挑战（学术引用）

MGB-3数据集最初作为多类型广播挑战的一部分发布。埃及方言部分的标准引用如下： bibtex @inproceedings{mgb3-challenge, title={The third Multi-Genre Broadcast (MGB-3) Arabic Challenge: Recognition and Dialect Identification of Arabic Multi-Genre Broadcast Data}, author={Ali, Ahmed and Bell, Peter and Glass, James and Mabrok, Mohamed and Magdy, Walid and Mubarak, Hamdy and Renals, Steve and Vogel, Stephan}, booktitle={2017 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU)}, pages={611--618}, year={2017}, organization={IEEE} }

3. 软件归属（DeepFilterNet）

bibtex @inproceedings{Schrter2022DeepFilterNet2, title={DeepFilterNet2: Real-Time Speech Enhancement on Mobile Devices for Full-Band Audio}, author={Hendrik Schr{"o}ter and Alberto N. Escalante-B. and Tobias Rosenkranz and Andreas Maier}, booktitle={ICASSP 2022}, year={2022} }

搜集汇总

数据集介绍

构建方式

在语音处理领域，高质量的方言数据集对于推动语音合成与识别技术至关重要。Egyptian-Speech-Clean-MGB3数据集基于多类型广播语料库MGB-3的埃及阿拉伯语部分，通过系统化预处理流程构建而成。其构建过程融合了先进的音频增强技术与定制化文本规范化方法，首先采用DeepFilterNet 3模型对原始音频进行降噪处理，有效消除背景杂音并保留说话人声音特征；同时开发了专门的埃及阿拉伯语文本规范化引擎，将数字、货币、时间等非语言符号转换为符合埃及方言口语表达的文本形式，确保语音与文本的高度对齐。

特点

该数据集在方言语音资源中展现出显著的专业特性，其核心特点体现在语音与文本的双重优化。音频数据经过深度滤波处理，采样率统一为16kHz，提供了清晰纯净的语音信号；文本部分则实现了埃及方言特有的语言学规范化，解决了标准阿拉伯语工具在处理方言数字及表达时的不足。数据集包含原始音频与处理后音频的双轨对比，为研究语音增强效果提供了直接参照。这些特征使其特别适用于埃及阿拉伯语的文本到语音合成及自动语音识别任务，填补了方言语音数据在质量与可用性方面的空白。

使用方法

对于研究人员与开发者而言，该数据集的使用流程清晰且高效。用户可通过HuggingFace平台直接加载数据集，每条数据均包含规范化文本、原始音频及分离后的目标音频三个字段。在语音合成任务中，建议使用分离后的目标音频作为训练输入，以获得更优的声学模型性能；在语音识别任务中，规范化文本可作为准确的标注参考。数据集已集成预处理代码示例，用户可参照提供的Python片段复现音频降噪与文本规范化流程，或在此基础上进行进一步的模型微调与实验设计。

背景与挑战

背景概述

埃及方言语音数据集Egyptian-Speech-Clean-MGB3源自2017年IEEE自动语音识别与理解研讨会发布的MGB-3阿拉伯语多类型广播挑战赛语料，由Ahmed Ali、Peter Bell等学者联合构建，旨在推动阿拉伯语方言语音识别与合成研究。该数据集聚焦埃及阿拉伯语，针对传统阿拉伯语自然语言处理工具在方言处理上的局限性，通过深度滤波网络降噪与定制化文本规范化流程，将原始语音数据优化为适用于语音合成任务的高质量资源，显著提升了埃及方言语音生成模型的训练效果与自然度。

当前挑战

该数据集致力于解决埃及阿拉伯语语音合成与识别中的核心挑战，包括方言特有的语音变异、非标准词汇表达以及背景噪声干扰等问题。在构建过程中，研究人员面临方言文本规范化的复杂性，需将数字、货币、时间等元素转换为地道的埃及口语形式；同时，语音增强阶段需在去除广播环境噪声的同时保持说话人音色与语音细节，这对降噪算法的精度与鲁棒性提出了较高要求。

常用场景

实际应用

在实际应用中，该数据集为开发面向埃及地区的智能语音助手、广播内容自动生成系统以及教育工具提供了关键支持。例如，在客服自动化领域，基于该数据集训练的TTS模型能够生成符合当地口音的语音回应，提升用户体验；在媒体行业，可用于快速生成方言配音或字幕，增强内容的可及性与亲和力。这些应用显著降低了方言语音技术的部署门槛，促进了技术在中东地区的普及。

衍生相关工作

围绕该数据集，已衍生出多项经典研究工作。一方面，基于其降噪音频，研究者进一步探索了噪声鲁棒性更强的语音识别模型，如结合对抗训练的端到端系统；另一方面，其文本规范化方法被扩展至其他阿拉伯语方言，推动了多方言文本处理框架的开发。此外，该数据集常作为基准数据，用于评估VITS、MMS等先进语音合成模型在方言场景下的性能，催生了跨语言语音迁移学习的新方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集