MBZUAI/ClArTTS

Name: MBZUAI/ClArTTS
Creator: MBZUAI
Published: 2025-10-01 11:28:43
License: 暂无描述

Hugging Face2025-10-01 更新2024-04-19 收录

下载链接：

https://hf-mirror.com/datasets/MBZUAI/ClArTTS

下载链接

链接失效反馈

官方服务：

资源简介：

ClArTTS是一个古典阿拉伯语语音合成（Text-to-Speech，TTS）语料库，旨在支持阿拉伯语端到端TTS系统的开发。该语音从LibriVox有声读物中提取，经过处理、分割、人工转录和注释。最终的ClArTTS语料库包含大约12小时的单一男性说话者的语音，采样率为40100 kHz。

We present a speech corpus for Classical Arabic Text-to-Speech (ClArTTS) to support the development of end-to-end TTS systems for Arabic. The speech is extracted from a LibriVox audiobook, which is then processed, segmented, manually transcribed and annotated. The final ClArTTS corpus contains about 12 hours of speech from a single male speaker sampled at 40100 kHz.

提供机构：

MBZUAI

原始信息汇总

数据集概述

基本信息

许可证: cc-by-4.0
数据集名称: ClArTTS
语言: 阿拉伯语
任务类别: 文本到语音、文本到音频
多语言性: 单语种
大小类别: 1K<n<10K

数据集结构

特征:
- text: 字符串类型
- file: 字符串类型
- audio: 序列，float64类型
- sampling_rate: 整数类型
- duration: 浮点数类型

数据集分割

训练集:
- 示例数量: 9500
- 字节数: 12889189484
测试集:
- 示例数量: 205
- 字节数: 283646282

数据集大小

下载大小: 3201049372
数据集总大小: 13172835766

数据集描述

概述: ClArTTS是一个用于古典阿拉伯语文本到语音系统的语音语料库，包含约12小时的单一男性演讲者语音，采样率为40100 kHz。
来源: 语音数据来自LibriVox有声读物，经过处理、分割、手动转录和标注。

搜集汇总

数据集介绍

构建方式

在古典阿拉伯语语音合成研究领域，数据资源的稀缺性长期制约着相关技术的发展。ClArTTS数据集的构建源于对高质量语音语料的迫切需求，其核心语料源自LibriVox开源有声读物平台。研究团队通过系统的音频处理流程，对原始录音进行精细化分割与降噪处理，并组织语言学专家对每段语音进行人工转写与韵律标注。最终形成的语料库包含约12小时纯净语音数据，采样率设定为40100赫兹，全部由一位男性发音人录制，确保了音色的一致性与发音的规范性。

特点

作为专门服务于古典阿拉伯语的语音合成数据集，ClArTTS展现出鲜明的专业特性。该数据集以单说话人语音为核心，有效避免了多发音人带来的音色变异问题，为构建稳定的声学模型奠定了坚实基础。数据集结构设计科学，每条数据均包含音频波形数组、对应转写文本、文件名、采样率及时长等多维度信息，形成了完整的语音-文本对齐体系。其约12小时的语音时长与40100赫兹的高采样率，在保证数据丰富度的同时，也确保了语音信号的保真度与细节完整性。

使用方法

在语音合成技术实践中，ClArTTS数据集为端到端TTS系统开发提供了关键训练资源。研究者可直接加载数据集中的训练集与测试集划分，利用其预对齐的文本-音频对进行声学模型与声码器的联合训练。数据集的高采样率特性要求使用者适配相应的音频处理管线，而纯净的单说话人语音则特别适合探索少样本或零样本语音合成的前沿方向。通过调用标准化的数据加载接口，开发者能够便捷地提取音频波形与对应文本，快速构建面向古典阿拉伯语的语音合成系统原型。

背景与挑战

背景概述

古典阿拉伯语作为阿拉伯语的重要历史形式，承载着丰富的文化遗产与学术价值，其语音合成研究对于数字人文与语言技术领域具有深远意义。MBZUAI/ClArTTS数据集于2023年由阿联酋穆罕默德·本·扎耶德人工智能大学的研究团队创建，旨在填补古典阿拉伯语端到端文本转语音系统开发中高质量语音资源的空白。该数据集基于LibriVox有声读物资源，经过精细处理、分段及人工转录标注，最终收录了约12小时的单男性说话人语音样本，采样率为40100赫兹，为古典阿拉伯语的语音建模与合成提供了关键数据支撑，推动了相关语言技术在文化传承与教育应用中的发展。

当前挑战

在古典阿拉伯语文本转语音领域，主要挑战在于该语言复杂的音系结构与历史变体，导致语音合成模型在韵律自然度与发音准确性上难以达到理想水平。ClArTTS数据集的构建过程面临多重困难：首先，古典阿拉伯语语音资源稀缺，需从有限的有声读物中提取并处理原始音频，涉及噪声消除与分段对齐的技术难题；其次，人工转录与标注要求语言学专家深度参与，以确保文本与语音的精确匹配，这一过程耗时且成本高昂；此外，数据集中仅包含单一说话人语音，限制了模型在说话人多样性与语音风格泛化能力上的拓展，为后续研究带来了数据覆盖范围的局限性。

常用场景

经典使用场景

在古典阿拉伯语语音合成领域，ClArTTS数据集为端到端文本转语音系统的开发提供了关键支持。该数据集源自LibriVox有声读物，经过精细处理和人工标注，包含约12小时的单一男性说话人语音，采样率为40100 kHz。其经典应用场景在于训练和评估基于深度学习的TTS模型，特别是针对古典阿拉伯语这一资源相对匮乏的语言变体，为研究者构建高质量、自然流畅的语音合成系统奠定了数据基础。

实际应用

在实际应用中，ClArTTS数据集为古典阿拉伯语教育、文化遗产保护及数字内容创作提供了技术支撑。基于该数据集训练的TTS系统能够将古典阿拉伯语文本转换为清晰自然的语音，应用于有声读物制作、语言学习工具开发以及历史文献的语音化呈现。这些应用不仅提升了古典阿拉伯语的可及性与传播效率，也为相关领域的数字化进程注入了活力，具有显著的社会与文化价值。

衍生相关工作

围绕ClArTTS数据集，已衍生出一系列经典的学术研究工作。例如，在Interspeech 2023会议上发表的原始论文系统介绍了数据集的构建方法与初步实验，为后续研究提供了基准。在此基础上，研究者们进一步探索了基于Transformer、Tacotron等先进架构的古典阿拉伯语TTS模型，优化了语音质量与自然度。这些工作不仅丰富了低资源语言语音合成的技术路线，也为跨语言语音合成领域的比较研究提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集