styletts2-community/common-voice-filtered
收藏Hugging Face2023-12-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/styletts2-community/common-voice-filtered
下载链接
链接失效反馈官方服务:
资源简介:
Common Voice Filtered数据集是Common Voice数据集的过滤子集,目前仅包含一小部分英语语音。该数据集仅包括MOS评分高于3.75(75%)的语音,这些评分由UTMOS系统计算得出。大约7%的音频符合纳入此过滤数据集的条件。该数据集特别适合用于文本到语音系统,但不适合用于语音识别系统,因为它排除了低质量的音频。数据集中大多数短语的长度限制为5秒。
Common Voice Filtered数据集是Common Voice数据集的过滤子集,目前仅包含一小部分英语语音。该数据集仅包括MOS评分高于3.75(75%)的语音,这些评分由UTMOS系统计算得出。大约7%的音频符合纳入此过滤数据集的条件。该数据集特别适合用于文本到语音系统,但不适合用于语音识别系统,因为它排除了低质量的音频。数据集中大多数短语的长度限制为5秒。
提供机构:
styletts2-community
原始信息汇总
Common Voice Filtered
概述
- 数据集名称: Common Voice Filtered
- 许可协议: cc-by-sa-4.0
- 任务类别: text-to-speech
- 标签: common-voice
- 数据规模: n<1K
详细描述
- 该数据集是Common Voice数据集的一个筛选子集,目前仅包含一小部分英语语音数据。
- 仅包含MOS评分高于3.75(75%)的语音数据,这些评分由UTMOS系统计算得出。大约7%的音频符合该筛选标准。
- 该数据集并非最终版本,处理整个Common Voice数据集需要大量计算资源,目前仅为项目的初步样本/MVP。
转录文本
- 转录文本可在原始Common Voice数据集中找到。
适用场景
- 由于该数据集仅包含高质量音频片段,特别适用于文本转语音系统,但不适用于语音识别系统,因为它排除了低质量音频。
数据长度
- 该数据集中的大多数短语长度限制在5秒以内。



