emolia-hq

Name: emolia-hq
Creator: LAION eV
Published: 2026-03-06 21:17:37
License: 暂无描述

Hugging Face2026-03-06 更新2026-03-07 收录

下载链接：

https://huggingface.co/datasets/laion/emolia-hq

下载链接

链接失效反馈

官方服务：

资源简介：

Emolia-HQ 是一个高质量、说话人配对的数据集，源自 LAION Emolia 数据集。每个样本包含目标语音和来自同一说话人的参考语音，适用于语音转换、富有表现力的文本到语音转换以及说话人感知的情感识别等任务。数据集经过质量过滤（仅保留 DNS-MOS 评分 ≥ 3.0 的样本）和说话人配对处理，形成“四元组”（目标语音和参考语音）或“二元组”（仅目标语音）。数据集以 WebDataset 格式存储，按语言分类，包含详细的元数据字段，如语音转录、持续时间、说话人 ID、语言代码、情感描述和语音特征嵌入等。统计数据显示，数据集涵盖德语、英语、法语、日语、韩语和中文，总大小约 4,716 GB，其中 97% 的样本包含同一说话人的参考语音。

Emolia-HQ is a high-quality, speaker-paired dataset derived from the LAION Emolia dataset. Each sample contains target speech and reference speech from the same speaker, making it suitable for tasks including voice conversion, expressive text-to-speech, and speaker-aware emotion recognition. Following quality filtering (only retaining samples with a DNS-MOS score ≥ 3.0) and speaker pairing processing, the dataset is structured into either "quadruples" (comprising target speech and reference speech) or "duples" (containing only target speech). Stored in WebDataset format and categorized by language, the dataset includes comprehensive metadata fields such as speech transcription, duration, speaker ID, language code, emotion description, and speech feature embeddings. Statistical analysis reveals that the dataset covers six languages: German, English, French, Japanese, Korean, and Chinese, with a total size of approximately 4,716 GB. Notably, 97% of the samples include reference speech from the same speaker.

提供机构：

LAION eV

创建时间：

2026-03-06

原始信息汇总

Emolia-HQ 数据集概述

数据集基本信息

数据集名称：Emolia-HQ
许可证：cc-by-4.0
任务类别：音频分类、文本到语音
支持语言：德语、英语、法语、日语、韩语、中文
标签：情感、语音、音频、webdataset、说话人验证
数据规模：10M<n<100M
总大小：约 4,716 GB
文件总数：4,192 个 tar 文件

数据集描述

Emolia-HQ 是 LAION Emolia 数据集的一个高质量、说话人配对子集。每个样本包含一个目标话语和一个来自同一说话人的参考话语，支持语音转换、富有表现力的文本到语音以及说话人感知的情感识别等任务。

数据来源与处理

来源：派生自 https://huggingface.co/datasets/laion/Emolia
处理步骤：
1. 质量过滤：仅保留 dnsmos >= 3.0 的样本。
2. 说话人配对：每个目标样本与同一说话人的参考音频（不同话语）进行匹配，形成“四元组”。对于不存在同一说话人参考的样本，则作为“配对”包含（仅目标）。
3. 元数据增强：从键中提取 speaker_id 和 language_id 字段，并注入每个样本的 JSON 元数据中。

数据格式与组织

数据集以 WebDataset .tar 文件格式存储，按语言组织：

emolia_hq/DE/：德语（243 个 tar 文件，约 130 GB）
emolia_hq/EN/：英语（2,380 个 tar 文件，约 2,476 GB）
emolia_hq/FR/：法语（298 个 tar 文件，约 187 GB）
emolia_hq/JA/：日语（96 个 tar 文件，约 163 GB）
emolia_hq/KO/：韩语（246 个 tar 文件，约 79 GB）
emolia_hq/ZH/：中文（929 个 tar 文件，约 1,681 GB）

样本文件结构

每个 tar 文件中的样本通过共享的基础键进行分组。

四元组（目标 + 同一说话人参考）

文件	描述
`<key>.mp3`	目标音频
`<key>.json`	目标元数据
`<key>.ref.mp3`	参考音频（同一说话人，不同话语）
`<key>.ref.json`	参考元数据

配对（未找到参考）

文件	描述
`<key>.mp3`	目标音频
`<key>.json`	目标元数据

元数据字段

字段	描述
`id`	唯一话语 ID
`text`	转录文本
`duration`	音频时长（秒）
`dnsmos`	DNS-MOS 质量分数（均 >= 3.0）
`speaker`	原始说话人 ID
`speaker_id`	提取的说话人 ID（例如 `DE_B00000_S00010`）
`language_id`	提取的语言代码（例如 `DE`）
`language`	语言代码（小写）
`emotion_caption`	情感内容的自然语言描述
`emotion_annotation`	包含 50 多种情感/韵律分数的字典
`characters_per_second`	语速
`wavelm_timbre_embedding`	128 维说话人音色嵌入

语言统计

语言	Tar 文件数	大小
德语	243	~130 GB
英语	2,380	~2,476 GB
法语	298	~187 GB
日语	96	~163 GB
韩语	246	~79 GB
中文	929	~1,681 GB
总计	4,192	~4,716 GB

约 97% 的样本包含同一说话人的参考音频（四元组）。其余约 3% 为配对样本，这些样本的说话人在整个数据集中仅出现一次。

使用示例

python import webdataset as wds

dataset = wds.WebDataset("emolia_hq/EN/EN-B000000_standard_hq.tar")

for sample in dataset: key = sample["key"] target_audio = sample["mp3"] # 字节 target_meta = sample["json"] # 字节 -> json.loads() ref_audio = sample.get("ref.mp3") # 字节或 None ref_meta = sample.get("ref.json") # 字节或 None

许可证

与源 Emolia 数据集相同。详情请参阅 https://huggingface.co/datasets/laion/Emolia。

搜集汇总

数据集介绍

构建方式

在情感语音合成领域，高质量且具备说话人一致性的数据资源尤为珍贵。Emolia-HQ数据集作为LAION Emolia的高质量子集，其构建过程体现了严谨的数据筛选与结构化处理。首先通过DNS-MOS质量评分（≥3.0）对原始音频进行过滤，确保语音信号的清晰度与自然度；进而依据说话人身份进行配对，为目标语句匹配同一说话人的参考语句，形成包含目标音频、参考音频及对应元数据的四元组结构，对于少数无法匹配的样本则保留为目标-元数据对。此外，数据集还从原始键中提取并注入了说话人标识与语言标识，增强了样本的元信息完整性。

特点

该数据集的核心特征在于其说话人配对的设计，约97%的样本均包含同一说话人的参考语句，为语音转换、富有表现力的文本到语音合成等任务提供了关键的条件信息。数据集涵盖德语、英语、法语、日语、韩语和中文六种语言，规模超过4.7TB，具有显著的多语言与大规模特性。每个样本不仅包含音频与转写文本，还附有自然语言的情感描述、细粒度的情感标注词典、语速指标以及说话人音色嵌入向量，构成了多层次、多模态的丰富表征。

使用方法

Emolia-HQ以WebDataset格式存储，用户可通过相应的数据加载库便捷地进行访问与迭代。数据按语言目录组织，每个.tar文件内包含以共同键名分组的目标音频、目标元数据，以及可选的参考音频与参考元数据。在典型使用场景中，开发者可加载特定语言的压缩包，遍历样本并分别读取音频字节流与元数据JSON，进而根据参考音频是否存在灵活适配语音合成、说话人验证或情感识别等下游模型的训练与评估流程。

背景与挑战

背景概述

Emolia-HQ数据集作为LAION Emolia的高质量子集，由LAION等研究机构于近年构建，专注于多语言语音情感计算领域。该数据集的核心研究问题在于解决语音合成与转换任务中，如何实现基于说话人身份保持的情感语音生成与识别。通过精心筛选高质量音频样本并配对同一说话人的参考语音，Emolia-HQ为语音转换、表达性文本到语音合成以及说话人感知的情感识别等前沿方向提供了关键数据支撑，显著推动了多模态人工智能在语音情感建模方面的发展。

当前挑战

Emolia-HQ所针对的领域挑战在于，传统语音情感数据集往往缺乏同一说话人的多情感样本配对，限制了说话人条件化任务的性能。构建过程中的主要挑战包括：首先，从大规模原始数据中筛选出高音频质量的样本，需依赖DNS-MOS评分等客观指标确保数据纯净度；其次，为每个目标样本匹配同一说话人的参考语音，涉及复杂的说话人身份识别与跨话语对齐，部分孤立说话人样本无法配对，导致数据完整性存在轻微缺口。

常用场景

经典使用场景

在语音合成与情感计算领域，Emolia-HQ数据集以其高质量、多语言且包含同一说话人配对样本的特性，成为语音转换和表达性文本转语音任务的经典资源。该数据集通过精心筛选的音频样本和说话人配对设计，为研究者提供了目标语音与同一说话人参考语音的对应关系，使得模型能够学习到说话人特定的声学特征和情感表达模式，从而在保持说话人身份一致性的同时，实现情感或风格的迁移。

解决学术问题

Emolia-HQ数据集有效解决了语音处理中说话人条件建模的若干核心学术问题，包括如何在高保真度下实现跨情感或风格的语音转换，以及如何在多语言环境中进行细粒度的情感识别。其提供的说话人配对样本和丰富的元数据（如情感标注、说话人嵌入）为探索说话人身份与情感表达的分离与融合提供了数据基础，推动了语音合成模型在个性化与自然度方面的理论进展。

衍生相关工作

基于Emolia-HQ数据集，已衍生出多项经典研究工作，主要集中在说话人条件语音合成、多模态情感识别以及跨语言语音转换等领域。例如，研究者利用其说话人配对特性开发了先进的语音转换模型，能够在保留说话人音色的同时调整情感强度；同时，其丰富的情感标注也促进了基于深度学习的细粒度情感分类模型的创新，为语音情感分析提供了新的基准。

以上内容由遇见数据集搜集并总结生成