five

mls-enhanced-dacvae

收藏
Hugging Face2026-03-23 更新2026-03-24 收录
下载链接:
https://huggingface.co/datasets/TTS-AGI/mls-enhanced-dacvae
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是基于facebook/multilingual_librispeech转换而来的DAC VAE潜在表示数据集,采用WebDataset tar分片格式存储,遵循cc-by-4.0许可协议。数据集适用于自动语音识别和文本到语音任务。每个分片(约2GB)包含每个样本的三个文件:原始音频(FLAC格式)、DAC VAE潜在表示(numpy float32格式)和元数据JSON文件。DAC VAE潜在表示由mrfakename/dacvae-watermarked模型生成,输入采样率为48,000 Hz,潜在表示形状为[T_latent, 128],潜在帧率为25帧/秒。数据集按语言和分割组织,命名格式为{LANG}-{split}-{index:05d}.tar。目前包含33个已上传分片,涵盖德语、西班牙语、法语、意大利语、荷兰语、波兰语和葡萄牙语等语言,各语言样本数量从11,768到31,712不等。元数据文件包含数据集名称、语言代码、数据分割、样本ID、文本转录、音频时长、字符每秒、原始采样率、DAC VAE输入采样率、潜在帧数等字段。
创建时间:
2026-03-23
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作