mls-enhanced-dacvae
收藏Hugging Face2026-03-23 更新2026-03-24 收录
下载链接:
https://huggingface.co/datasets/TTS-AGI/mls-enhanced-dacvae
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是基于facebook/multilingual_librispeech转换而来的DAC VAE潜在表示数据集,采用WebDataset tar分片格式存储,遵循cc-by-4.0许可协议。数据集适用于自动语音识别和文本到语音任务。每个分片(约2GB)包含每个样本的三个文件:原始音频(FLAC格式)、DAC VAE潜在表示(numpy float32格式)和元数据JSON文件。DAC VAE潜在表示由mrfakename/dacvae-watermarked模型生成,输入采样率为48,000 Hz,潜在表示形状为[T_latent, 128],潜在帧率为25帧/秒。数据集按语言和分割组织,命名格式为{LANG}-{split}-{index:05d}.tar。目前包含33个已上传分片,涵盖德语、西班牙语、法语、意大利语、荷兰语、波兰语和葡萄牙语等语言,各语言样本数量从11,768到31,712不等。元数据文件包含数据集名称、语言代码、数据分割、样本ID、文本转录、音频时长、字符每秒、原始采样率、DAC VAE输入采样率、潜在帧数等字段。
创建时间:
2026-03-23



