lonesamurai/emilia_clean_10k
收藏Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/lonesamurai/emilia_clean_10k
下载链接
链接失效反馈官方服务:
资源简介:
EMILIA Clean 10k是从amphion/Emilia-Dataset(英语部分)过滤出来的一个子集,专为单说话人TTS训练设计。数据集包含10,000个剪辑,来自200个英语说话人,每个剪辑时长3-10秒,采样率为24kHz(单声道)。数据集经过严格的过滤流程,包括候选选择(基于时长和DNSMOS质量)、重叠检测(确保每个剪辑只有一个说话人)和最终选择(每个说话人选择50个剪辑)。预处理内容包括提取文本标记、韵律嵌入、F0/能量、RVQ代码和说话人嵌入。数据集分为8,000个训练剪辑和2,000个验证剪辑。
EMILIA Clean 10k is a filtered subset of the amphion/Emilia-Dataset (English split), designed for single-speaker TTS training. The dataset contains 10,000 clips from 200 English speakers, with each clip lasting 3-10 seconds at a 24 kHz sample rate (mono). The dataset underwent a rigorous filtering pipeline including candidate selection (based on duration and DNSMOS quality), overlap detection (ensuring exactly one speaker per clip), and final selection (50 clips per speaker). Preprocessing includes extraction of text tokens, prosody embeddings, F0/energy, RVQ codes, and speaker embeddings. The dataset is split into 8,000 training clips and 2,000 validation clips.
提供机构:
lonesamurai
搜集汇总
数据集介绍

构建方式
EMILIA Clean 10k数据集源自Amphion团队发布的Emilia-Dataset英文子集,通过一套精细的多阶段过滤流程构建。首先,依据时长(3至10秒)与DNSMOS音频质量评分(不低于3.2)筛选候选片段,并锁定片段数量不少于60条的Top 400说话人,获得约24,000条候选数据。随后,利用SpeechBrain ECAPA模型提取说话人嵌入,结合凝聚层次聚类(阈值0.30),在1.5秒窗口内检测说话人重叠,仅保留恰好包含单一说话人的片段。最后,从清音率最高的200位说话人中各均匀采样50条音频,按80/20比例划分训练集与验证集,并基于Qwen3-TTS 1.7B基座模型提取文本令牌、韵律嵌入、基频/能量、RVQ编码及说话人嵌入等预处理张量。
特点
该数据集以高质量单说话人英文语音为核心特色,共计10,000条音频片段,覆盖200位说话人,每位贡献50条样本,确保了说话人间的均衡性。音频统一为24 kHz单声道采样率,时长控制在3至10秒,既保留了丰富的语音变异性,又便于下游模型高效处理。尤为突出的是,每份预处理文件包含完整的训练张量,如Qwen3-TTS标准的文本令牌、512维韵律嵌入、对数域基频与能量目标、12.5 Hz采样率的Mimi RVQ码(16层)、ECAPA说话人嵌入及语音克隆参考嵌入,并附带训练集的全局归一化统计参数,为端到端语音合成提供了即插即用的结构化数据支持。
使用方法
使用者可通过加载manifest.json文件获取训练与验证集的元数据,该文件记录了每条片段的ID、说话人、文本、时长、音频路径及所属划分。音频文件以WAV格式存储在clean_audio.tar.gz压缩包中,文件命名规则为{批次}_{说话人}_{片段}.wav,便于按需索引。更高效的方式是直接利用preprocessed.tar.gz中的PyTorch .pt文件,每个文件以字典形式存储包括input_ids、prosody_embeds、f0_target、energy_target、rvq_tokens及spk_emb等预计算张量,配合stats.json中的归一化均值与标准差,可无缝接入Qwen3-TTS等模型的训练与推理流程,大幅降低数据预处理开销。
背景与挑战
背景概述
EMILIA Clean 10k 数据集是语音合成领域的一项重要研究成果,由 Amphion 团队于近年创建,旨在为单说话人文本到语音(TTS)任务提供高质量、标准化的训练资源。该数据集从开源的大规模多说话人情感语音数据集 EMILIA 的英文子集中精心筛选而来,核心研究问题聚焦于如何通过严格的过滤和预处理流程,从海量自然语音中提取出纯净、均匀且适合单说话人 TTS 模型训练的样本。数据集包含 10,000 个音频片段,采样率为 24kHz,覆盖 200 位说话人,每位说话人贡献 50 个片段,并划分为 8,000/2,000 的训练/验证集。其发布为 TTS 领域提供了重要的基准数据,尤其推动了基于 Qwen3-TTS 等先进基座模型的语音生成研究,在单说话人语音合成质量评估和模型训练中具有广泛影响力。
当前挑战
EMILIA Clean 10k 数据集的构建与使用面临多重挑战。在领域问题层面,TTS 研究长期受限于语音数据的多样性与质量——真实场景中的语音常包含背景噪声、多说话人重叠、语速不均等干扰因素,直接影响合成语音的自然度和清晰度。为此,数据集设计者需解决从嘈杂环境中精准筛选单说话人语音的难题,包括如何定义可量化的语音质量指标(如 DNSMOS ≥3.2)以及如何借助 Speaker Embedding 和聚类算法(阈值 0.30)检测并排除重叠说话人片段。在构建过程中,挑战体现在候选样本的规模控制与平衡性上:原始 EMILIA 数据集规模庞大且说话人不均,需通过多步过滤(候选选择、重叠检测、最终采样)在 24,000 个候选中锁定 10,000 个纯净片段,同时确保每位说话人样本数量一致以避免模型偏好。此外,预处理阶段需协同提取文本 token、韵律嵌入、F0/能量、RVQ 码等多个模态的张量数据,并保证统计归一化的全局一致性,这对计算资源和算法稳定性提出了较高要求。
常用场景
经典使用场景
EMILIA Clean 10k 数据集专为单说话人文本转语音(TTS)任务而设计,其经典使用场景在于为高保真、低资源条件下的语音合成模型提供纯净、标准化的训练语料。通过严格的过滤流水线,该数据集从大规模、多说话人的 Amphion/Emilia-Dataset 中精选出 10,000 条时长为 3–10 秒、且经过 DNSMOS 质量评分和重叠说话人检测的高质量英语音频片段,并由 200 位说话人各贡献 50 条,形成了稳定的单说话人子集。研究者可基于此数据集进行端到端语音合成、声码器训练、韵律建模以及说话人表征学习等经典实验。其预处理后的张量数据(包含 F0、能量、RVQ 码、说话人嵌入等)可直接接入如 Qwen3-TTS 等先进框架,极大降低了数据清洗和特征提取的入门门槛,成为单说话人 TTS 研究的标准基准之一。
实际应用
在实际应用中,EMILIA Clean 10k 数据集为诸多语音交互产品提供了基础支撑。基于该数据集训练的 TTS 系统可被部署于智能音箱、车载语音助手、有声读物生成以及无障碍辅助阅读设备等场景,生成具有高自然度和稳定音色的英语语音输出。数据集所提供的预处理张量(如 RVQ 码和说话人嵌入)可直接用于低比特率语音编解码与语音克隆引擎的开发,让开发者能够快速构建具备个性化音色特征的语音合成服务。此外,其对说话人信息的显式编入与克隆嵌入的支持,催生了面向虚拟角色配音、多语言语音翻译以及个性化语音唤醒等商业应用的创新方案,在降低产品研发成本的同时提升了用户体验。
衍生相关工作
EMILIA Clean 10k 数据集的诞生衍生了一系列重要的学术工作。最为直接的是,它作为 Qwen3-TTS 1.7B 基础模型的标准训练子集,推动了大规模语音预训练模型在单说话人场景下的微调与适配研究。数据集的预处理流水线(包括重叠检测、质量筛选及多模态特征提取)被广泛借鉴于后续的语料库净化工作,如 SpeakerClean 和 VoiceFilter 的相关扩展研究。此外,基于该数据集的 RVQ 码与 F0/能量对齐特性,研究者开发了分层韵律控制方法和离散语音表示建模框架,例如将其用于 SpeechTokenizer 的评估与改进。数据集所提供的标准化 speaker embedding 和 voice clone embedding 亦成为说话人自适应合成与零样本语音克隆领域的基准参考,催生了如 Meta-Voice 和 PromptTTS 等系列工作的实验验证与对比分析。
以上内容由遇见数据集搜集并总结生成



