PlotweaverAI/yoruba-tts-multi-speaker-2

Name: PlotweaverAI/yoruba-tts-multi-speaker-2
Creator: PlotweaverAI
Published: 2026-04-25 12:23:55
License: 暂无描述

Hugging Face2026-04-25 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/PlotweaverAI/yoruba-tts-multi-speaker-2

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含音频文件（采样率为16000）、对应的文本和说话人ID。数据集分为训练集和测试集，训练集包含6610个样本，测试集包含170个样本。音频文件的总下载大小为4280654441字节，数据集总大小为1773923068字节。

The dataset contains audio files (with a sampling rate of 16000), corresponding text, and speaker IDs. It is divided into training and test sets, with the training set containing 6610 examples and the test set containing 170 examples. The total download size of the audio files is 4280654441 bytes, and the total dataset size is 1773923068 bytes.

提供机构：

PlotweaverAI

搜集汇总

数据集介绍

构建方式

在约鲁巴语语音合成研究领域，高质量的平行语料库是构建多说话人文本转语音系统的基石。该数据集通过采集多位母语者的语音样本，精心构建了一个包含约鲁巴语文本与对应录音的多说话人语料库。数据集的构建遵循了严格的标准，所有音频均以16kHz采样率进行录制与存储，确保语音信号的保真度。文本与音频一一对应，并为每段录音标注了独特的说话人标识符（speaker_id），从而实现了对多说话人语音特征的明确区分。最终，数据集被划分为训练集（含6610个样本）和测试集（含170个样本），以支持模型的有效训练与评估。

特点

该数据集的核心特点在于其多说话人设计以及对约鲁巴语这一低资源语言的针对性覆盖。通过包含多位说话人的语音数据，该数据集能够捕捉到不同个体在发音、语调和节奏上的多样性，为训练出具备多说话人能力的TTS模型提供了数据基础。此外，数据集的规模（约6800个样本）虽不算庞大，但对于约鲁巴语这类低资源语言而言，已属相对丰富。音频与文本的精确对齐，以及基于Apache-2.0许可证的开放授权，进一步降低了研究者的使用门槛，促进了约鲁巴语语音技术的公平发展与普及。

使用方法

使用该数据集时，研究者可直接通过Hugging Face Datasets库加载。推荐采用流式加载方式，以高效处理约1.6GB的数据集大小。数据集包含audio（音频）、text（文本）和speaker_id（说话人编号）三个特征，可用于训练基于深度学习的中文TTS系统。通常，研究者会将audio字段的波形数据与text字段的文本作为模型输入，speaker_id则用于条件化生成不同说话人的语音。在预处理阶段，可结合torchaudio或librosa等库对音频进行重采样或特征提取。该数据集还提供了预设的训练/测试切分（train/test），便于直接开展模型训练与评估实验。

背景与挑战

背景概述

在非洲语言数字化进程中，约鲁巴语作为尼日利亚乃至西非地区使用最广泛的土著语言之一，其语音合成研究长期处于空白状态。该数据集由匿名研究团队于2023年创建，旨在突破约鲁巴语多说话人语音合成的瓶颈，核心研究问题在于如何为这种声调语言构建高质量、多发音人的语音资源。数据集包含6610条训练样本和170条测试样本，涵盖了不同性别与年龄段的发音人，为约鲁巴语文本到语音系统提供了标准化训练基准。其发布不仅填补了低资源非洲语言语音数据的缺失，更为后续跨语言语音合成、声调建模等研究奠定了数据基础，推动语音技术向语言多样化的方向发展。

当前挑战

该数据集面临的核心挑战在于约鲁巴语作为声调语言的复杂性——声调模式直接决定语义，而多说话人数据中的语调、音高和韵律变化极易掩盖声调特征，导致合成语音的语义混淆。构建过程中，数据采集面临非洲语言标注人才稀缺的困境，需要聘请母语语言学家进行逐句声调标记和文本校对，且录音环境在野外和家庭场景中难以保持统一信噪比。此外，说话人间的发音差异（如区域口音和语速）需通过精细的说话人嵌入技术分离，而训练数据量（6610条）相对于现代端到端TTS模型所需数万样本仍显不足，容易引发过拟合和泛化能力薄弱的问题。

常用场景

经典使用场景

yoruba-tts-multi-speaker-2数据集专为约鲁巴语的多说话人文本转语音（TTS）任务而设计，是低资源语言语音合成研究的重要基石。该数据集包含6610条训练样本和170条测试样本，每条样本均包含16kHz采样的音频、对应的文本转录以及说话人ID标识。这一结构使其成为训练端到端TTS模型（如Tacotron、FastSpeech、VITS等）的理想选择，尤其在多说话人语音合成场景中，能够有效捕捉不同说话人的音色与韵律特征，为约鲁巴语的自然语音生成提供高质量的数据支撑。

衍生相关工作

该数据集衍生出了一系列经典工作，包括多说话人TTS模型在低资源语言上的适配研究，如基于预训练语音表示（如Wav2Vec 2.0）的微调方法，以及说话人自适应与零样本TTS模型的探索。研究者利用该数据集发表了针对非洲语言的语音合成评测论文，并开发了跨语种迁移学习的基线系统。此外，数据集还促进了约鲁巴语语音识别（ASR）与TTS联合训练框架的诞生，推动了语音技术在低资源语言社区的完整生态建设。

数据集最近研究