tts-pretrain-clones-3m

Hugging Face2026-04-25 更新2026-04-26 收录

下载链接：

https://huggingface.co/datasets/SynDataLab/tts-pretrain-clones-3m

下载链接

链接失效反馈

官方服务：

资源简介：

TTS Pretrain Clones (3M) 是一个用于文本到语音（TTS）任务的英语语音克隆数据集，包含 2,967,779 个语音样本，涉及 2,971 个不同的英语说话者。数据以 44.1 kHz 的采样率存储为 WAV 格式，并封装在 Parquet 文件中。语音样本是通过 echo-tts 合成系统生成的，基于 Qwen3-TTS VoiceDesign 基础说话者的潜在特征。每个说话者有 10 个语音克隆潜在特征和 100 个文本样本。数据集覆盖了说话者 1-60、61（部分，749 行）和 91-3000，但缺少 30 个说话者（61 的尾部 + 62-90）的数据，这是由于迁移过程中的存储事故导致的。伴随数据集（Aynursusuz/tts-pretrain-refs-3k）包含每个说话者的第一个语音样本，供参考使用。

创建时间：

2026-04-24

原始信息汇总

数据集概述

基本信息

数据集名称：TTS Pretrain Clones (3M)
许可证：Apache-2.0
任务类别：文本到语音（text-to-speech）
语言：英语（en）
数据集大小：1M < n < 10M

数据集规模

总样本数：2,967,779 条克隆语音
说话人数量：2,971 个英语说话人

数据特征

特征名	类型	说明
audio	音频	采样率 44.1 kHz，WAV 格式，存储于 Parquet 文件中
text	字符串	对应的文本内容
speaker_id	字符串	说话人标识符

数据划分

训练集：2,967,779 个样本
数据文件路径：data/train-*.parquet 和 data2/train-*.parquet

数据生成方式

由 echo-tts 系统基于 Qwen3-TTS VoiceDesign 基础说话人潜变量合成英语文本生成
每个说话人：10 个语音克隆潜变量 × 100 段文本

特殊说明

每个说话人的第一条语音（第0行）已单独发布在配套的参考集（companion refs set）中
说话人覆盖范围：1-60号 + 61号（部分，749行） + 91-3000号
30个说话人（61号的剩余部分 + 62-90号）因迁移过程中的存储事故缺失，但其参考语音仍保留在配套数据集中

配套数据集

参考语音数据集：Aynursusuz/tts-pretrain-refs-3k

搜集汇总

数据集介绍

构建方式

该数据集通过基于语音克隆技术的大规模预训练数据构建策略生成，以echo-tts合成引擎为核心，在由Qwen3-TTS VoiceDesign提供的基说话人隐层表示上，对英语文本进行语音合成。每个说话人对应10组语音克隆潜变量与100段文本的交叉组合，共计2,967,779条克隆语音样本，覆盖2,971个英语说话人。为保障独立性，每位说话人的首条语音被单独收录于配套参考集中。由于存储迁移过程中的意外，编号61末尾及62至90的三十位说话人数据缺失，但其参考样本仍留存于配套数据集中。

特点

该数据集以大规模、高保真与结构化覆盖为核心特色，所有音频均以44.1 kHz采样率存储于Parquet格式的WAV文件中，确保了存储与读取的高效性。数据涵盖编号1至3000范围内广泛分布的说话人，兼顾了语者多样性与数量规模，其构建方式也支持对说话人隐空间特征的控制与迁移研究。作为大规模文本到语音预训练语料，其统一采样率与格式化存储使数据可直接用于深度学习模型的训练与评估。

使用方法

用户可通过HuggingFace Datasets库便捷加载该数据集，指定配置为default，读取data/与data2/目录下的train-*.parquet文件即可获取训练分片中的全部样本。数据集提供audio、text与speaker_id三个字段，其中audio字段为44.1 kHz的音频张量，text为对应转录文本，speaker_id为说话人标识。使用时需注意，配套参考集tts-pretrain-refs-3k可用于为每位说话人提供首条原始克隆语音，便于构建基于少样本语音的生成任务或评估基准。

背景与挑战

背景概述

在文本到语音合成（Text-to-Speech, TTS）领域，大规模、多说话人的预训练数据集是驱动声学模型性能跃升的关键基石。tts-pretrain-clones-3m数据集由研究机构或团队（基于README中提及的Qwen3-TTS VoiceDesign技术）于近期构建，旨在解决高质量语音合成中说话人多样性与数据规模之间的矛盾。该数据集包含约300万条克隆语音，覆盖2971名英语说话人，依托Echo-TTS合成引擎，通过从Qwen3-TTS VoiceDesign基座说话人的潜在空间中抽取说话人特征，结合文本生成语音。其核心研究问题在于如何利用合成数据替代真实录音，克服传统TTS数据采集成本高昂、隐私许可难获取的瓶颈，从而为多说话人TTS预训练提供规模化、高保真的训练资源。这一工作对推动TTS领域从特定说话人模型向通用语音生成模型的演进具有显著影响力。

当前挑战

数据集面临的挑战可从两个维度剖析。在领域问题层面，传统TTS数据依赖真实录音，受限于说话人数量、语料覆盖度和录音环境，而该数据集通过合成技术扩充规模，却需应对合成语音与自然语音在韵律、情感及声学精细结构上的分布差异，避免预训练模型过拟合于合成特征，从而确保下游任务（如零样本克隆）的泛化能力。在构建过程中，数据集遭遇了存储迁移事故导致30名说话人（编号62-90及61号的部分数据）的语音样本永久缺失，这不仅打破了说话人覆盖的完整性，还迫使后续使用中需借助配套参考数据集（tts-pretrain-refs-3k）进行补偿，增加了数据对齐与实验可复现的难度。此外，如何在高采样率（44.1 kHz）与近300万条样本的庞大数据量下平衡存储效率与检索速度，亦是工程实现上的关键瓶颈。

常用场景

经典使用场景

该数据集涵盖近三百万条、涵盖两千九百七十一名英语说话者的克隆语音片段，采样率为44.1 kHz，以WAV格式存储于Parquet文件中。其经典使用场景集中于文本到语音合成领域的预训练阶段，为构建多说话人语音合成模型提供大规模、多样化的语音素材。研究人员可利用这些由Echo-TTS系统合成的语音，结合说话人潜变量，训练神经网络模型学习语音特征与文本之间的映射关系，从而提升模型对陌生说话人语音的泛化能力。该数据集特别适合用于语音编码器、声学模型以及语音生成模型的预训练，是语音合成研究中不可或缺的基础资源。

实际应用

在实际应用中，该数据集可广泛服务于智能语音助手、有声内容生成、无障碍辅助技术以及交互式教育工具等领域。例如，开发者可利用该数据集预训练的语音合成模型，快速为虚拟角色或数字人赋予个性化的语音特征，提升用户体验的真实感与沉浸感。在语音导航、公告播报等需要多角色语音的场景中，该数据集能够支持模型生成自然流畅且风格多样的语音输出。此外，它还能为语音克隆应用提供基础训练数据，助力个性化语音定制服务的发展，满足用户对独特听觉体验的需求。

衍生相关工作

该数据集衍生了一系列重要的相关工作，特别是在多说话人语音合成与语音克隆领域。基于该数据集，研究人员提出了诸多改进型模型结构，如基于变分自编码器的说话人潜变量提取方法、注意力机制的声学模型优化方案以及端到端语音合成系统的预训练策略。这些工作进一步推动了语音生成技术在说话人身份解耦、音色控制与韵律建模方面的突破。该数据集还激发了关于合成语音质量评估、说话人一致性保持以及跨数据集泛化能力的比较研究，为语音合成领域的理论创新与工程实践奠定了坚实基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集