emolia-3k-speaker-clusters
收藏Hugging Face2026-03-17 更新2026-03-20 收录
下载链接:
https://huggingface.co/datasets/laion/emolia-3k-speaker-clusters
下载链接
链接失效反馈官方服务:
资源简介:
Emolia 3K Speaker Clusters 是一个精选的包含 3,000 个多样化说话人聚类的数据集,源自 TTS-AGI/emolia-hq 数据集,每个聚类包含最多 20 个代表性音频样本。原始 emolia-hq 数据集包含数十万个语音样本,具有 128 维 WavLM 说话人音色嵌入。这些嵌入首先被聚类为 10,000 个中心点,然后通过密度感知的最远点采样智能修剪为 3,000 个,以确保保留独特/罕见的语音类型(1.4 倍异常值过表示)、减少冗余(例如,许多相似的明亮女声被合并为代表)以及均匀覆盖嵌入空间。数据集包含 59,977 个音频样本,平均每个聚类有 20 个样本,嵌入维度为 128,使用余弦距离度量。最佳样本的平均 DNS-MOS 为 3.46,平均时长为 9.3 秒。数据集适用于音频分类、文本到语音、说话人嵌入、说话人聚类和说话人验证等任务。
提供机构:
LAION eV
创建时间:
2026-03-17



