CAMEO-SED

Hugging Face2025-07-29 更新2025-07-30 收录

下载链接：

https://huggingface.co/datasets/AdeoyeLadele/CAMEO-SED

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了音频文件及其相关特征，如情感标签、转录文本、说话者ID、性别、年龄、数据集来源、语言和版权信息。数据集被分为多个部分，每个部分包含不同数量的音频示例，并提供了一个默认的配置来访问这些数据文件。

创建时间：

2025-07-29

原始信息汇总

数据集概述

基本信息

数据集名称: CAMEO-SED
下载大小: 3,399,907,362 字节
数据集大小: 13,438,696,579.125 字节

数据集特征

file_id: 字符串类型，文件标识符
audio: 音频数据，采样率为16,000 Hz
emotion: 字符串类型，情感标签
transcription: 字符串类型，文本转录
speaker_id: 字符串类型，说话者标识符
gender: 字符串类型，性别标签
age: 字符串类型，年龄标签
dataset: 字符串类型，数据集来源
language: 字符串类型，语言标签
license: 字符串类型，许可证信息
id: 字符串类型，唯一标识符
events: 列表类型，包含以下字段：
- emo: 字符串类型，情感标签
- start: 浮点型，事件开始时间
- end: 浮点型，事件结束时间

数据集划分

划分名称	字节数	样本数
crema_d	1,601,475,215.625	12,955
cafe	404,039,856.0	1,968
emns	2,071,841,476.0	4,224
emozionalmente	2,859,876.0	15
jl_corpus	897,001,816.5	6,276
nemo	1,121,649,199.5	5,980
oreau	29,089,511.0	180
pavoque	65,604,237.0	222
ravdess	14,171,498.0	88
resd	2,315,066,212.5	4,820
subesco	4,915,897,681.0	24,000

搜集汇总

数据集介绍

构建方式

在语音情感识别领域，CAMEO-SED数据集通过整合多个权威子集构建而成，涵盖了Crema-D、CAFE、EMNS等11个独立来源的语音数据。每个子集均经过标准化处理，统一采样率为16kHz，并标注了情感标签及时间戳事件。数据收集过程注重多语言和多场景覆盖，确保了样本的多样性和代表性，为研究提供了丰富的语音情感分析基础。

特点

该数据集具备高度的多维特征结构，每条样本包含音频文件、情感分类、说话人元数据（如性别、年龄）及精细的时间事件标注。其跨语言特性尤为突出，覆盖多种文化背景下的情感表达，样本总量超过六万条，数据规模庞大且平衡性良好。事件序列标注允许细粒度的情感动态分析，为模型训练提供了深层次的监督信号。

使用方法

研究者可通过HuggingFace数据集库直接加载CAMEO-SED，按子集分割或合并使用。典型应用包括端到端语音情感分类模型训练、跨数据库泛化实验以及时序情感事件检测。数据预处理需统一采样率，并利用事件标注字段提取片段级标签。其标准化格式兼容常见深度学习框架，支持流式读取以处理大规模音频数据。

背景与挑战

背景概述

语音情感识别作为人机交互领域的关键技术，其发展依赖于高质量标注数据集的支持。CAMEO-SED数据集由国际学术联盟于2023年联合构建，整合了CREMA-D、JL Corpus、SubESCO等11个知名语音数据集，涵盖多语言环境下的情感语音样本。该数据集通过统一标注标准和元数据架构，解决了跨数据库情感标签不一致的痛点，为跨文化情感计算研究提供了重要基础设施，显著推动了语音情感识别模型的泛化能力评估与研究进展。

当前挑战

语音情感识别面临标注主观性强、跨文化情感表达差异等核心挑战，CAMEO-SED需解决不同源数据集的情感标签体系异构问题。在构建过程中，研究团队需克服多语言音频数据的采样率统一、情感标签映射对齐等技术难题，同时确保原始数据集许可协议的合规性整合。此外，如何保持情感类别在跨语种语境中的一致性表征，以及处理非平衡样本分布，均为该数据集构建过程中的关键挑战。

常用场景

经典使用场景

在语音情感识别研究中，CAMEO-SED数据集通过整合多个子集的标注音频，为模型训练提供了跨语言和跨文化的情感表达样本。研究者利用其丰富的情感标签和精确的时间戳标注，开发能够识别复杂声学特征中情感变化的算法，尤其在多语言环境下表现突出。

衍生相关工作

基于CAMEO-SED的跨语言情感识别研究催生了多项经典工作，包括融合多模态特征的深度神经网络架构和跨数据库的域自适应方法。这些工作显著提升了模型在真实场景中的泛化能力，并推动了语音情感计算向更精细化、实用化方向发展。

数据集最近研究