Aynursusuz/tts-pretrain-refs-3k

Name: Aynursusuz/tts-pretrain-refs-3k
Creator: Aynursusuz
Published: 2026-04-24 13:56:09
License: 暂无描述

Hugging Face2026-04-24 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/Aynursusuz/tts-pretrain-refs-3k

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个用于文本转语音（TTS）预训练的参考数据集，包含3000个参考话语，每个话语对应一个独特的说话者（speaker_00000001至speaker_00003000）。音频采样率为44.1 kHz，以WAV格式存储在Parquet文件中。这些音频是由echo-tts合成的英语文本，基于Qwen3-TTS VoiceDesign基础说话者的潜在特征生成的。数据集的特征包括音频、文本和说话者ID，其中音频的采样率为44100 Hz。数据集分为一个训练集，包含3000个样本。配套数据集（clones）为Aynursusuz/tts-pretrain-clones-3m。

3000 reference utterances for TTS pretraining, one per speaker (speaker_00000001 through speaker_00003000). Sample rate: 44.1 kHz, WAV in Parquet. Generated by echo-tts synthesizing English text on speaker latents derived from Qwen3-TTS VoiceDesign base speakers. Features include audio, text, and speaker ID, with audio sampling rate of 44100 Hz. The dataset is split into a training set with 3000 examples. Companion dataset (clones): Aynursusuz/tts-pretrain-clones-3m.

提供机构：

Aynursusuz

5,000+

优质数据集

54 个

任务类型

进入经典数据集