five

Omar111/tts-egyption-dataset

收藏
Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/Omar111/tts-egyption-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个埃及语文本-音频数据集,通过自动化管道从YouTube视频收集并处理而成。数据集包含2013个训练样本,总大小约2.08GB。每个样本包含音频文件、对应文本和Cohere ASR模型生成的文本。该数据集主要用于自动语音识别(ASR)和文本转语音(TTS)研究,特别针对埃及阿拉伯语方言。

An Egyptian text-audio dataset collected and processed through an automated pipeline from YouTube videos. The dataset contains 2013 training examples with a total size of approximately 2.08GB. Each example includes an audio file, corresponding text, and text generated by the Cohere ASR model. The dataset is primarily intended for Automatic Speech Recognition (ASR) and Text-to-Speech (TTS) research, with a focus on Egyptian Arabic dialect.
提供机构:
Omar111
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集构建了一套自动化管道,用于从YouTube平台收集埃及阿拉伯语语音数据。首先通过脚本批量下载目标视频,随后提取音频内容并利用强制对齐模型(MahmoudAshraf/mms-300m-1130-forced-aligner)对音频与文本进行精准时间戳对齐,再借助Cohere ASR模型生成辅助转录文本(cohere_text)。最终将处理后的音频文件、原始文本及Cohere文本共同封装为HuggingFace标准数据集格式,包含2013条训练样本,音频与文本字段一一对应。
特点
数据集专为埃及方言阿拉伯语设计,弥补了该地区方言语音资源的稀缺性。每条数据包含三项关键信息:原始音频文件、人工标注文本以及Cohere ASR模型生成的增强文本,可支持语音识别与合成双重任务。音频字段采用HuggingFace原生audio类型存储,便于直接加载与频谱特征提取,训练/测试划分清晰,单训练集即包含2013个高质量样本。
使用方法
推荐使用HuggingFace Datasets库加载,通过load_dataset函数直接读取default配置下的train分片。使用时可将text字段作为语音合成(TTS)的目标文本,audio字段作为输入音频,也可利用cohere_text进行多模态对比实验。数据集兼容transformers的ASR和TTS训练流程,例如结合Whisper进行微调或搭建FastSpeech等合成模型。下载数据前需确保网络畅通,数据集总大小约2.08GB。
背景与挑战
背景概述
在低资源语言与方言的语音合成研究领域,高质量文本-音频平行数据的匮乏长期制约着模型性能的提升。埃及方言作为阿拉伯语的重要口语变体,其语音资源尤为稀缺。为此,研究者于近期构建了名为“tts-egyption-dataset”的数据集,该工作由以Omar Ahmed为代表的团队完成,核心研究问题在于为埃及方言文本转语音(TTS)及自动语音识别(ASR)任务提供首个系统化的数据支撑。数据集包含2013条训练样本,通过自动化流水线从YouTube采集并处理音频与对应文本,显著降低了方言数据采集的人力门槛。该数据集填补了埃及方言语音资源的空白,为多方言TTS与ASR模型的发展注入了关键动力,推动了阿拉伯语语音技术在地域化应用中的进步。
当前挑战
该数据集面临的挑战首先源于领域问题的特殊性:埃及方言缺乏标准正字法与大规模书面语料,导致自动语音识别时的音素映射与文本对齐极为困难,进而影响TTS模型的自然度与可控性。在构建过程中,自动化流水线虽提升了效率,但YouTube音频背景噪声、口音多样性与录音质量参差不齐,增加了数据清洗与强制对齐的复杂度。此外,仅有2013条样本的规模远不足以覆盖埃及方言中丰富的词汇、语调与语速变化,模型易陷入过拟合。为此,研究者尝试引入Cohere ASR模型与强制对齐工具以提升标注精度,但跨模型误差累积与方言特有发音的标注缺失仍是当前构建流程的瓶颈。
常用场景
经典使用场景
在阿拉伯语方言语音合成与识别的研究领域中,该数据集聚焦于埃及阿拉伯语这一广泛使用的地域性变体,为构建高质量文本到语音(TTS)系统提供了珍贵的语料资源。其经典使用场景在于,研究者能够利用其中的音频与文本对,训练出能够自然流畅地朗读埃及方言的合成语音模型。同时,它也支持自动语音识别(ASR)任务的开展,助力模型精准捕捉埃及口音的独特韵律与发音特征。通过该数据集,学术人员可以深入探索低资源方言的语音建模技术,推动多方言语音系统的均衡发展。
实际应用
在实际应用中,该数据集可赋能面向埃及用户的智能语音助手,使其能够以纯正的当地口音进行语音交互,提升用户体验与服务的本土化水平。同时,它可作为语音内容创作工具的核心训练数据,支撑自动生成埃及方言的播客、有声书及教育材料。在呼叫中心场景中,基于该数据集训练的ASR模型可准确转录包含方言的客户对话,助力客服质量分析及情感识别。这些应用不仅拓展了语音技术的语言覆盖范围,也促进了阿拉伯语数字生态系统的多样化与包容性。
衍生相关工作
该数据集衍生出了一系列具有启发性的研究工作,其配套的开源自动化采集管道——能够从YouTube下载并处理音频以创建TTS数据集——为其它低资源语言的语料构建提供了可复现的范式。研究者已将这一框架迁移至北非马格里布方言、黎凡特方言等近缘语言变体,推动了跨方言语音数据集的大规模生成。此外,该数据集常被用于对比不同预训练语音模型(如Cohere ASR与Whisper系列)在埃及口音上的表现,并催生了针对方言语音的对抗性训练与域适应等前沿方法的探索。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作