clustered-reference-voices
收藏Hugging Face2026-03-18 更新2026-03-20 收录
下载链接:
https://huggingface.co/datasets/laion/clustered-reference-voices
下载链接
链接失效反馈官方服务:
资源简介:
Clustered Reference Voices (EMOLIA 3K) 是一个包含 3,000 个增强参考语音 MP3 文件的数据集,每个文件代表一个说话者聚类中的高质量样本。数据集来源于 laion/emolia-3k-speaker-clusters,包含 3,000 个说话者聚类,每个聚类约有 20 个样本(总计 59,977 个话语)。音频经过两阶段处理:首先使用 MossFormer2_SE_48K 模型进行语音增强,去除背景噪声和其他非语音伪影;然后通过 Empathic Insight Voice Plus 模型进行质量评分,生成多个质量维度(如整体质量、语音质量、背景质量和内容享受度)。每个聚类中选择 `overall_quality` 分数最高的样本作为代表参考语音。数据集适用于文本到语音系统参考语音、语音克隆、说话者验证基准和质量过滤研究等任务。数据集文件包括音频文件、元数据文件和交互式图库文件。数据集采用 CC-BY-4.0 许可证发布。
提供机构:
LAION eV
创建时间:
2026-03-18



