SynDataLab/tts-pretrain-clones-3m
收藏Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/SynDataLab/tts-pretrain-clones-3m
下载链接
链接失效反馈官方服务:
资源简介:
TTS预训练克隆数据集(3M)包含2,967,779个克隆语音样本,涵盖2971个英语说话者。采样率为44.1 kHz,音频以WAV格式存储在Parquet文件中。这些样本是通过echo-tts合成英语文本,基于从Qwen3-TTS VoiceDesign基础说话者中提取的潜在特征生成的。每个说话者有10个语音克隆潜在特征,每个潜在特征对应100个文本样本。每个说话者的第一个语音样本(第0行)在配套的参考数据集中单独发布。数据集覆盖了说话者1-60、61(部分,749行)和91-3000。由于迁移过程中的存储事故,30个说话者(61的尾部+62-90)的数据缺失,但他们的参考样本仍保留在配套数据集中。配套数据集(参考):Aynursusuz/tts-pretrain-refs-3k。
TTS Pretrain Clones (3M) contains 2,967,779 clone utterances across 2971 English speakers. Sample rate: 44.1 kHz, WAV in Parquet. Generated by echo-tts synthesizing English text on speaker latents derived from Qwen3-TTS VoiceDesign base speakers. Per speaker: 10 voice-clone latents × 100 texts. The first utterance of each speaker (row 0) is published separately in the companion refs set. Coverage: speakers 1-60 + 61 (partial, 749 rows) + 91-3000. Thirty speakers (61s tail + 62-90) are absent due to a storage incident during migration; refs for them remain in the companion dataset. Companion dataset (references): Aynursusuz/tts-pretrain-refs-3k.
提供机构:
SynDataLab
搜集汇总
数据集介绍

构建方式
该数据集专为文本到语音(Text-to-Speech, TTS)模型的预训练而构建,旨在提供大规模、多样化的语音样本以增强模型对音色与韵律的泛化能力。构建过程基于Echo-TTS合成引擎,利用从Qwen3-TTS VoiceDesign基座说话者中提取的说话者隐变量(speaker latents),对英文文本进行语音合成。具体而言,每位说话者生成10组音色克隆隐变量,每组对应100条不同文本的合成语音,从而构建出共计约297万条高质量克隆语音样本。数据集覆盖2971位英文说话者,其中包含序号1至60、61号说话者的部分样本(749行),以及91至3000号说话者的完整数据;由于存储迁移事故,61号说话者的尾部样本及62至90号说话者的数据缺失,但其参考语音已收录于配套的参考数据集之中。
使用方法
数据集以Hugging Face数据集格式提供,用户可通过如`datasets`库直接加载。默认配置下,数据包含`train`划分,共约296万余条样本,每条样本包含三个字段:`audio`(44100 Hz采样率的音频张量)、`text`(对应英文文本)、`speaker_id`(说话者标识符)。使用时,用户可基于Parquet分片路径(如`data/train-*.parquet`与`data2/train-*.parquet`)进行分布式加载或流式处理。推荐将此数据集用于TTS预训练任务,如语音编码器训练、说话者表示学习或多说话者语音合成系统的初始阶段,配套的参考数据集`tts-pretrain-refs-3k`可辅助音色对齐与评估。
背景与挑战
背景概述
在文本到语音(TTS)合成领域,大规模、高质量的多说话人数据集是推动模型泛化能力与自然度提升的关键基石。该数据集由研究团队于近期创建,依托Qwen3-TTS VoiceDesign基础说话人潜在表示,利用回声TTS合成引擎生成了涵盖2971位英语说话人的近300万条克隆语音片段。其核心研究问题在于如何通过合成数据扩充TTS预训练语料,以缓解真实多说话人数据采集成本高昂、隐私受限的困境。该数据集与配套的参考语音集共同构建了一套完整的预训练资源,为说话人自适应、语音克隆及零样本TTS等前沿方向提供了规模化训练支撑,有望加速相关领域的研究进展。
当前挑战
该数据集所解决的领域挑战在于:真实多说话人语音数据获取困难,尤其是大规模覆盖不同声学特征的语料库构建成本极高,限制了TTS模型在说话人多样性和音频自然度上的表现。数据集构建过程中面临诸多技术难点:一是如何从有限的基础说话人潜在表示中稳定生成高质量、低噪声的克隆语音,确保合成音频在频谱保真度与韵律自然度上接近真人录音;二是处理存储迁移事故导致的30位说话人数据缺失,需通过配套参考集补偿;三是协调百万级音频样本与文本的配对对齐,并统一采样率至44.1kHz以保证训练一致性。
常用场景
经典使用场景
在语音合成与声学建模的研究领域中,tts-pretrain-clones-3m数据集以其大规模、多说话人、高质量合成的特性,成为预训练语音表征学习和文本到语音(TTS)模型的经典基准。该数据集包含近300万条克隆语音片段,覆盖2971个英语说话人,每条语音均由Echo-TTS系统基于Qwen3-TTS VoiceDesign的说话人潜在表示合成而得。研究者常利用此数据集进行多说话人语音合成模型的预训练,探索语音特征在说话人空间中的泛化能力,以及从文本到语音的端到端映射规律。其庞大的规模和多样的说话人分布,使其在说话人自适应、语音风格迁移和零样本语音克隆等前沿课题中扮演着不可或缺的角色。
解决学术问题
该数据集主要解决了多说话人语音合成中训练数据匮乏和说话人多样性不足的学术难题。在传统TTS研究中,获取大规模、高质量的多说话人语音数据成本高昂且隐私风险突出,tts-pretrain-clones-3m通过合成技术提供了接近三百万条涵盖近三千个说话人的标准化语音样本,显著降低了数据收集门槛。它支撑了无监督说话人表征学习、说话人解耦语音表示以及基于潜在空间的语音属性编辑等基础研究,推动了从单说话人模型向通用多说话人合成系统的跨越。其影响在于为语音领域的大规模预训练范式提供了数据基础,促进了TTS模型在低资源场景下的泛化能力,并启发了语音合成中数据增强与虚拟数据利用的新方向。
实际应用
在实际应用中,tts-pretrain-clones-3m数据集为语音助手、有声读物生成、虚拟主播和个性化语音交互系统提供了强大的模型训练基础。开发者可以使用该数据集预训练一个通用的多说话人TTS引擎,再通过少量目标说话人的真实数据进行微调,快速实现个性化语音合成。例如,在智能客服场景中,系统能够动态切换数百种不同的说话人音色以适应品牌形象;在教育领域,可生成不同年龄、性别的朗读语音用于语言学习应用。此外,该数据集合成语音的44.1kHz高采样率保障了输出音频的听觉质量,使其适用于对音质要求较高的专业音频制作和广播级语音应用。
数据集最近研究
最新研究方向
当前,大规模多说话人文本转语音(TTS)预训练数据集正成为语音合成领域的前沿焦点,而tts-pretrain-clones-3m作为包含近300万条、覆盖2971个英语说话者的克隆语音样本集,其研究意义在于为自监督声学建模与说话人解耦表征学习提供了海量、高保真的训练资源。该数据集基于Qwen3-TTS VoiceDesign的说话人潜在表征,通过回声合成策略生成,每个说话者利用10组克隆潜变量与100段文本组合,极大丰富了语音多样性与韵律细节。近期研究方向主要围绕如何利用此类大规模预训练数据提升零样本语音克隆的泛化能力,以及优化跨说话人音色迁移的鲁棒性。此外,该数据集的出现也推动了TTS基础模型向更细粒度的说话人身份控制与情感表达方向发展,为构建更自然、更具表现力的合成语音系统奠定了数据基石,其开源许可(Apache-2.0)更促进了学术界与工业界的协同创新。
以上内容由遇见数据集搜集并总结生成



