five

commonvoice22-sidon-dacvae

收藏
Hugging Face2026-03-22 更新2026-03-23 收录
下载链接:
https://huggingface.co/datasets/TTS-AGI/commonvoice22-sidon-dacvae
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是基于CommonVoice 22 (Sidon-enhanced)转换而来的DAC VAE潜在表示数据集,采用WebDataset格式存储为tar分片。每个样本包含三个文件:原始FLAC格式音频、DAC VAE潜在表示([T_latent, 128]形状的numpy数组)和包含丰富元数据的JSON文件。数据集使用Facebook的DACVAE模型进行编码,输入音频采样率为48kHz,潜在表示帧率为25帧/秒。数据集涵盖多种语言(如英语、德语、法语等),每个语言的样本数量在元数据表格中详细列出。元数据包含语言代码、数据划分、文本转录、音频时长、字符每秒速率等丰富信息。该数据集适用于自动语音识别和文本到语音转换任务,采用CC-BY-4.0许可证。
创建时间:
2026-03-21
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作