five

emolia-3k-speaker-clusters

收藏
Hugging Face2026-03-17 更新2026-03-20 收录
下载链接:
https://huggingface.co/datasets/laion/emolia-3k-speaker-clusters
下载链接
链接失效反馈
官方服务:
资源简介:
Emolia 3K Speaker Clusters 是一个精选的包含 3,000 个多样化说话人聚类的数据集,源自 TTS-AGI/emolia-hq 数据集,每个聚类包含最多 20 个代表性音频样本。原始 emolia-hq 数据集包含数十万个语音样本,具有 128 维 WavLM 说话人音色嵌入。这些嵌入首先被聚类为 10,000 个中心点,然后通过密度感知的最远点采样智能修剪为 3,000 个,以确保保留独特/罕见的语音类型(1.4 倍异常值过表示)、减少冗余(例如,许多相似的明亮女声被合并为代表)以及均匀覆盖嵌入空间。数据集包含 59,977 个音频样本,平均每个聚类有 20 个样本,嵌入维度为 128,使用余弦距离度量。最佳样本的平均 DNS-MOS 为 3.46,平均时长为 9.3 秒。数据集适用于音频分类、文本到语音、说话人嵌入、说话人聚类和说话人验证等任务。
提供机构:
LAION eV
创建时间:
2026-03-17
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作