emolia-balanced-5M-subset

Name: emolia-balanced-5M-subset
Creator: LAION eV
Published: 2026-04-18 23:49:54
License: 暂无描述

Hugging Face2026-04-18 更新2026-04-19 收录

下载链接：

https://huggingface.co/datasets/laion/emolia-balanced-5M-subset

下载链接

链接失效反馈

官方服务：

资源简介：

emolia-balanced-5M-subset 是从 laion/Emolia 数据集中提取的一个平衡子集，包含约 5.26M 个语音样本，以 WebDataset 兼容的 tar 分片形式提供，便于直接用于训练流程。该子集通过两种标准筛选样本：1) 情感阈值，每个样本需满足 40 种情感（Emonet 分类法）中至少一种的分数阈值，每种情感目标约 100,000 个样本；2) 说话人多样性，每个样本的 WavLM 音色嵌入被分配到 3,000 个说话人中心之一，每个中心最多收集 1,000 个样本以确保广泛的语音类型覆盖。数据集经过去重处理，最终包含 5,256,683 个独特样本。数据格式为每分片 5,000 个样本的 tar 文件，包含 .mp3 音频文件和 .json 元数据文件。元数据包括原始 Emolia 样本 ID、语言代码、音频时长、音频质量评分、说话人 ID、情感注释字典等字段。适用于情感识别、语音合成等任务。

提供机构：

LAION eV

创建时间：

2026-04-18

原始信息汇总

emolia-balanced-5M-subset 数据集概述

数据集基本信息

数据集名称: emolia-balanced-5M-subset
来源数据集: laion/Emolia (包含8050万个语音样本)
样本数量: 5,256,683个唯一语音样本
数据格式: 以WebDataset兼容的tar分片形式打包，便于直接用于训练流程
分片数量: 1,052个分片，每个分片包含5,000个样本

数据子集构建方法

该子集通过两种筛选标准从源数据集中选取样本，满足任一标准即可入选。

1. 情感阈值筛选

每个样本包含40种情感（基于Emonet分类法）的注释分数。
为每种情感设定一个阈值，当样本的对应情感分数达到或超过该阈值时，该样本即被归入该情感类别。
阈值根据完整Emolia数据集的分布计算，目标是使每种情感类别收集约100,000个样本。
每种情感最多收集100,000个样本（样本可同时属于多种情感类别）。

2. 说话人多样性筛选

使用每个样本的128维WavLM音色嵌入。
将嵌入向量分配到3,000个说话人质心（经过k-means修剪）中最近的一个。
为确保涵盖罕见声音类型，每个质心最多收集1,000个样本。

去重处理

在提取后，对样本ID进行全局检查，移除了259个跨分片的重复样本，最终得到5,256,683个唯一样本。

情感类别与样本分布

数据集覆盖40种情感类别，除“Astonishment/Surprise”外，其余类别均收集了100,000个样本。

Astonishment/Surprise: 阈值≥2.00，收集了96,332个样本（这是完整数据集中最罕见的情感，所有符合条件的样本均已包含）。
其他39种情感（如Affection, Anger, Sadness等）均收集了100,000个样本，具体阈值详见README中的表格。

数据集格式与内容

文件结构

每个分片是一个tar文件，包含连续的.mp3（音频）和.json（元数据）文件对。
命名示例：emolia-000000.tar 包含 000000.mp3, 000000.json, ..., 004999.mp3, 004999.json。

音频数据

格式：MP3
质量：源自Emolia的原始质量

元数据（JSON字段）

每个.json文件包含原始Emolia样本的元数据，并进行了以下调整：

移除了wavelm_timbre_embedding字段（减少了约50%的JSON大小）。
添加了__emolia_id__字段，即原始Emolia样本ID。
保留的关键字段包括：
- id: 与__emolia_id__相同
- language: BCP-47语言代码
- duration: 音频时长（秒）
- dnsmos: DNSMOS音频质量分数
- speaker: 说话人ID
- emotion_annotation: 包含40多种*_best情感分数的字典
- characters_per_second: 语速

使用与加载

在PyTorch中加载（推荐使用WebDataset）

python import webdataset as wds dataset = ( wds.WebDataset("data/emolia-{000000..001051}.tar") .decode("torch") .to_tuple("mp3", "json") ) for audio, meta in dataset: emotion_scores = meta["emotion_annotation"]

直接加载单个分片

python import tarfile, json with tarfile.open("data/emolia-000000.tar") as tar: members = {m.name: m for m in tar.getmembers()} for i in range(5000): key = f"{i:06d}" audio = tar.extractfile(members[key + ".mp3"]).read() meta = json.load(tar.extractfile(members[key + ".json"]))

源数据集关键信息

情感注释: 来自微调音频模型的连续回归分数，存储在emotion_annotation.*_best字段中。
说话人嵌入: 使用128维WavLM音色嵌入进行质心分配（在该子集的JSON中已剥离）。
阈值计算基础: 基于完整数据集86%的样本（约6900万），并通过×1.16的缩放因子外推至每情感100,000个样本的目标。

许可证

继承自源数据集laion/Emolia的许可证。具体使用条款请参考源数据集。

搜集汇总

数据集介绍

构建方式

在情感计算与语音分析领域，构建具有均衡情感分布的数据集对模型训练至关重要。emolia-balanced-5M-subset从原始Emolia数据集中通过双重筛选机制精心构建：一方面，基于40维Emonet情感标注，为每种情感设定动态阈值，确保每种情感类别均能收集约十万个样本，覆盖从喜爱到惊奇等广泛情感维度；另一方面，利用WavLM音色嵌入与三千个说话人聚类中心进行匹配，从每个中心抽取最多一千个样本，以保障罕见声音类型的广泛代表性。最终通过全局去重处理，从八千万原始样本中提炼出五百二十六万独特样本，形成情感与说话人双重平衡的高质量子集。

使用方法

在语音情感计算模型的开发流程中，该数据集可直接集成至现代深度学习框架。用户可通过WebDataset库在PyTorch环境中高效加载，利用解码管道将MP3音频实时转换为张量，并与对应JSON元数据配对输入模型。数据分片支持并行读取与流式处理，适合分布式训练场景；对于小规模实验，亦可直接解压单个分片并通过标准文件接口解析。元数据中的情感得分字段可直接作为回归目标或离散化后用于分类任务，结合语音速率与质量指标，能够支撑多模态情感分析、语音合成情感控制及说话人自适应等前沿研究方向。

背景与挑战

背景概述

在语音情感计算领域，构建大规模、高质量且标注精细的数据集是推动模型性能突破的关键。emolia-balanced-5M-subset作为LAION组织发布的Emolia数据集的一个平衡子集，于近年问世，旨在应对语音情感识别中数据分布不均与多样性不足的核心研究问题。该子集从原始8000万条语音样本中，依据Emonet情感分类体系的40维连续标注分数，通过阈值筛选与说话人多样性覆盖策略，精心抽取了约526万条样本，确保了每类情感与不同音色特征的均衡代表性。其创建不仅为语音情感分析、多模态交互及生成式人工智能提供了宝贵的训练资源，更通过结构化封装为WebDataset格式，显著提升了数据加载效率，对促进情感智能模型的公平性与鲁棒性发展产生了深远影响。

当前挑战

语音情感识别领域长期面临情感标注主观性强、数据分布高度不均衡以及跨说话人泛化能力不足等挑战。emolia-balanced-5M-subset致力于缓解这些难题，其构建过程需克服双重困难：在领域层面，如何精准定义并量化40种细微情感状态，确保标注一致性以应对真实场景中情感的复杂性与模糊性；在技术层面，从海量原始数据中实现情感与说话人的双重平衡采样极具挑战，需设计自适应阈值以覆盖稀有情感类别，并运用k-means聚类与质心分配策略来保障音色多样性，同时还需处理跨分片样本去重等数据一致性问题，以构建一个既全面又无偏的数据子集。

常用场景

经典使用场景

在情感计算与语音处理领域，emolia-balanced-5M-subset数据集常被用于训练和评估多模态情感识别模型。该数据集通过精心筛选，确保了40种情感类别在样本数量上的均衡分布，同时兼顾了说话人多样性，为研究者提供了一个大规模、高质量的情感语音基准。经典使用场景包括构建端到端的深度学习模型，如卷积神经网络或Transformer架构，以从音频波形中直接提取情感特征，并预测连续的情感评分，从而推动情感识别技术的边界。

解决学术问题

该数据集有效解决了情感语音研究中数据稀缺与类别不平衡的长期挑战。传统情感数据集往往规模有限，且情感类别覆盖狭窄，难以支持复杂模型的训练。emolia-balanced-5M-subset通过基于Emonet分类法的40维情感标注，为细粒度情感分析提供了丰富的数据基础。其意义在于促进了跨语言、跨说话人的情感建模研究，使得模型能够更准确地捕捉微妙的情感变化，为情感计算的理论发展提供了坚实的实证支撑。

实际应用

在实际应用中，该数据集可广泛服务于智能交互系统，如情感感知的虚拟助手、客户服务机器人和心理健康监测工具。通过利用数据集中的多样情感样本，开发者能够训练出更具同理心的语音接口，使其能够识别用户的情绪状态并作出适应性响应。此外，在娱乐和教育领域，该数据可用于开发情感驱动的游戏或个性化学习系统，提升用户体验与参与度，展现了情感人工智能技术的广阔应用前景。

数据集最近研究