five

Aynursusuz/tts-pretrain-refs-3k

收藏
Hugging Face2026-04-24 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/Aynursusuz/tts-pretrain-refs-3k
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个用于文本转语音(TTS)预训练的参考数据集,包含3000个参考话语,每个话语对应一个独特的说话者(speaker_00000001至speaker_00003000)。音频采样率为44.1 kHz,以WAV格式存储在Parquet文件中。这些音频是由echo-tts合成的英语文本,基于Qwen3-TTS VoiceDesign基础说话者的潜在特征生成的。数据集的特征包括音频、文本和说话者ID,其中音频的采样率为44100 Hz。数据集分为一个训练集,包含3000个样本。配套数据集(clones)为Aynursusuz/tts-pretrain-clones-3m。

3000 reference utterances for TTS pretraining, one per speaker (speaker_00000001 through speaker_00003000). Sample rate: 44.1 kHz, WAV in Parquet. Generated by echo-tts synthesizing English text on speaker latents derived from Qwen3-TTS VoiceDesign base speakers. Features include audio, text, and speaker ID, with audio sampling rate of 44100 Hz. The dataset is split into a training set with 3000 examples. Companion dataset (clones): Aynursusuz/tts-pretrain-clones-3m.
提供机构:
Aynursusuz
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作