five

NileTTS

收藏
arXiv2026-02-17 更新2026-02-19 收录
下载链接:
https://huggingface.co/datasets/KickItLikeShika/NileTTS-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
NileTTS是由乔治亚理工学院和尼罗大学联合构建的首个公开埃及阿拉伯语语音合成数据集,包含38小时双说话人(男女各一)的语音数据,覆盖医疗、销售及日常对话三大领域。该数据集通过大语言模型生成埃及阿拉伯语文本,经神经音频合成工具转换为自然语音后,采用Whisper自动转录并经过人工质检,最终形成9521条高质量语音-文本对。其创新性的合成流程为低资源方言语音研究提供了可扩展方案,主要应用于改进埃及阿拉伯语的TTS模型训练,解决该方言在语音助手等场景下的技术空白问题。

NileTTS is the first publicly available Egyptian Arabic speech synthesis dataset jointly developed by the Georgia Institute of Technology and Nile University. It contains 38 hours of speech data from two speakers (one male and one female), covering three domains: medical, sales and daily conversations. The dataset is created by first generating Egyptian Arabic texts via large language models (LLMs), converting them into natural speech using neural audio synthesis tools, then automatically transcribing the speech with Whisper and conducting manual quality checks, ultimately resulting in 9521 high-quality speech-text pairs. Its innovative synthesis pipeline provides a scalable solution for low-resource dialect speech research, and it is mainly applied to improve the training of Egyptian Arabic TTS models, addressing the technical gap in scenarios such as voice assistants for this dialect.
提供机构:
乔治亚理工学院; 尼罗大学
创建时间:
2026-02-17
搜集汇总
数据集介绍
构建方式
在语音合成领域,针对资源匮乏的方言变体,NileTTS数据集的构建采用了一种创新的合成数据生成流程。该流程首先利用大型语言模型生成埃及阿拉伯语文本内容,覆盖医疗、销售与客服以及日常对话等多个领域,确保内容的多样性和方言真实性。随后,通过支持埃及阿拉伯语的神经音频合成工具将文本转换为自然语音,生成包含男性和女性说话人的对话式音频。接着,利用Whisper模型进行自动转录和分段,并结合ECAPA-TDNN模型进行说话人日志分析以区分说话人身份。整个流程中融入了人工质量验证环节,以保障转录准确性和说话人一致性,最终形成了包含38小时转录语音的数据集。
特点
NileTTS数据集作为首个公开的埃及阿拉伯语语音合成资源,其显著特点在于内容的多样性和结构的平衡性。数据集涵盖了医疗、销售与客服以及日常对话三个不同领域,确保了主题的广泛覆盖,从而能够支持模型学习多样化的语言表达。数据集中包含两位说话人(一男一女)的语音,说话人分布均衡,为语音克隆任务提供了良好的基础。此外,数据以对话形式组织,平均语句长度为14.4秒,既提供了足够的上下文信息,又符合典型序列长度约束。所有数据均按照XTTS v2训练规范格式化,便于直接用于模型微调,增强了其实用性和可复现性。
使用方法
NileTTS数据集主要用于训练和微调语音合成模型,特别是在埃及阿拉伯语这一资源稀缺的方言上。研究人员可以直接使用该数据集对现有多语言TTS模型(如XTTS v2)进行微调,以提升模型在埃及阿拉伯语上的合成质量。数据集已分割为训练集和评估集,支持模型训练与性能评估。在实际应用中,用户可通过加载数据集中的音频文件及其对应转录文本,结合说话人标识信息,进行端到端的模型训练。此外,数据集配套发布的微调模型可作为基线,供后续研究比较和进一步优化,从而推动埃及阿拉伯语语音合成技术的发展。
背景与挑战
背景概述
在神经文本转语音技术快速发展的背景下,阿拉伯语方言的语音合成资源仍呈现显著的不均衡分布。尽管现代标准阿拉伯语和海湾方言已获得较多关注,但使用人口超过一亿、在阿拉伯世界广泛理解的埃及阿拉伯语却长期缺乏高质量的语音数据集。为填补这一资源空白,Ahmed Khaled Khamis与Hesham Ali等研究人员于2026年推出了NileTTS数据集。该数据集包含38小时的转录语音,涵盖医疗、销售及日常对话等多个领域,并首次采用基于大语言模型的合成数据生成流程,旨在为埃及阿拉伯语的语音合成研究提供关键数据支持,推动低资源方言语音技术的发展。
当前挑战
NileTTS数据集致力于解决埃及阿拉伯语文本转语音模型训练中数据稀缺的核心挑战。在领域问题层面,其需克服方言语音合成中特有的语言学障碍,包括埃及阿拉伯语与标准阿拉伯语在音系、词汇及句法上的显著差异,以及确保合成语音在自然度、可懂度及说话人相似性上达到实用标准。在构建过程中,挑战主要体现于合成数据管道的设计与验证:需利用大语言模型生成地道的方言文本,通过神经音频合成工具转化为自然语音,并依赖自动转录与说话人日志技术进行标注,同时需进行人工质量核查以保障数据准确性,这一全流程需在确保语言真实性与技术可行性间取得平衡。
常用场景
经典使用场景
在语音合成技术快速发展的背景下,阿拉伯语方言资源的不均衡问题日益凸显。NileTTS数据集作为首个公开的埃及阿拉伯语语音合成数据集,其最经典的使用场景在于为埃及阿拉伯语文本到语音模型的训练与评估提供高质量、多领域的语音数据。该数据集通过涵盖医疗、销售和日常对话等多样化领域,使得研究人员能够构建具有广泛适应性的语音合成系统,从而有效弥补埃及阿拉伯语在语音技术领域长期存在的资源匮乏问题。
解决学术问题
NileTTS数据集主要解决了低资源方言语音合成中的核心学术挑战。它通过提供大规模、转录准确的埃及阿拉伯语语音数据,为研究方言语音建模、跨方言迁移学习以及多语言语音合成系统的适应性优化提供了关键实验基础。该数据集不仅支持语音合成模型在方言特定音素、语调和韵律模式上的精细调优,还促进了合成语音自然度与说话人相似性等关键指标的量化评估,从而推动了方言语音技术研究的理论深化与方法创新。
衍生相关工作
NileTTS数据集的发布催生了一系列相关研究工作,尤其是在低资源方言语音合成领域。其创新的合成数据生成流程——结合大语言模型的内容生成、神经音频合成与自动转录技术——为其他阿拉伯语方言乃至全球低资源语言的语音数据集构建提供了可复现的范式。后续研究可基于该数据集开展多说话人扩展、跨方言语音转换以及合成语音质量的人类主观评估等探索,进一步推动方言语音合成技术向更高效、更通用的方向发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作