five

clustered-reference-voices

收藏
Hugging Face2026-03-18 更新2026-03-20 收录
下载链接:
https://huggingface.co/datasets/laion/clustered-reference-voices
下载链接
链接失效反馈
官方服务:
资源简介:
Clustered Reference Voices (EMOLIA 3K) 是一个包含 3,000 个增强参考语音 MP3 文件的数据集,每个文件代表一个说话者聚类中的高质量样本。数据集来源于 laion/emolia-3k-speaker-clusters,包含 3,000 个说话者聚类,每个聚类约有 20 个样本(总计 59,977 个话语)。音频经过两阶段处理:首先使用 MossFormer2_SE_48K 模型进行语音增强,去除背景噪声和其他非语音伪影;然后通过 Empathic Insight Voice Plus 模型进行质量评分,生成多个质量维度(如整体质量、语音质量、背景质量和内容享受度)。每个聚类中选择 `overall_quality` 分数最高的样本作为代表参考语音。数据集适用于文本到语音系统参考语音、语音克隆、说话者验证基准和质量过滤研究等任务。数据集文件包括音频文件、元数据文件和交互式图库文件。数据集采用 CC-BY-4.0 许可证发布。
提供机构:
LAION eV
创建时间:
2026-03-18
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作