Emo-Emilia

github2025-03-03 更新2025-02-28 收录

下载链接：

https://github.com/zxzhao0/C2SER

下载链接

链接失效反馈

官方服务：

资源简介：

Emo-Emilia是一个新的语音情感识别测试集，用于更好地模拟真实世界的环境。它通过自动化标注方法对Emilia进行标注，Emilia是一个大规模的多语言和多样化的语音生成资源，包含超过100,000小时的语音数据，涵盖广泛的情感语境。每个语句至少由两名专家进行验证，以确保情感标签的准确性和可靠性。最终提出的测试集Emo-Emilia包含1400个测试样本，涵盖七种情感类别（愤怒、快乐、恐惧、惊讶、中性、悲伤和厌恶），每种语言（中文和英文）各有700个样本。

Emo-Emilia is a novel speech emotion recognition test set developed to better simulate real-world scenarios. It employs automated annotation methods to label data sourced from Emilia—a large-scale multilingual and diverse speech generation resource boasting over 100,000 hours of speech data covering a broad spectrum of emotional contexts. Each utterance in the test set was verified by at least two experts to ensure the accuracy and reliability of the emotion labels. The finalized Emo-Emilia test set consists of 1400 test samples spanning seven emotion categories: anger, happiness, fear, surprise, neutral, sadness, and disgust, with 700 samples allocated to each of the two languages, Mandarin Chinese and English.

创建时间：

2025-02-15

原始信息汇总

C²SER 数据集概述

1. 数据集简介

名称: Emo-Emilia
类型: 语音情感识别测试集
语言: 中英双语
规模: 1400个测试样本（中英文各700个）
情感类别: 7类（愤怒、快乐、恐惧、惊讶、中性、悲伤、厌恶）
每类样本量: 100个/语言

2. 数据来源

基于Emilia数据集子集构建
原始数据集: Emilia数据集
下载地址: HuggingFace

3. 标注信息

采用自动化标注+人工验证方式
每个样本由至少两名专家验证
标注文件: ./Emo-Emilia/Emo-Emilia-ALL.jsonl

4. 相关模型

Emotion2Vec-S

类型: 自监督语音情感识别模型
特点:
- 扩展自Emotion2Vec
- 采用半监督学习增强情感区分能力
预训练模型:
- HuggingFace
- Google Drive

C²SER-LLM

类型: 音频语言模型
核心方法:
- 上下文感知
- 思维链(CoT)推理
- 显式到隐式CoT的自蒸馏
预训练模型:
- 基础模型: Qwen-7B
- 微调模型: HuggingFace

5. 特征提取

输入要求: wav.scp文件格式
提取级别: 帧级/语句级
脚本路径: ./Emotion2Vec-S/speech_feature_extraction.py
批量处理脚本: ./Emotion2Vec-S/extract_feature.sh

6. 推理流程

使用Emotion2Vec-S提取语句级特征
修改./C2SER-llm/infer_runtime.py中的路径参数
选择阶段提示词（Stage1/Stage2）
运行推理脚本

搜集汇总

数据集介绍

构建方式

Emo-Emilia数据集的构建，是基于大规模多语种语音生成资源Emilia，通过自动化标注方法对Emilia中的语音数据进行情感标注，并经过至少两位专家的人工审核以确保标签的准确性和可靠性。该数据集最终包含1400个测试样本，涵盖七种情感类别（愤怒、快乐、恐惧、惊讶、中性、悲伤和厌恶），并包含中文和英文两种语言。

特点

Emo-Emilia数据集的特点在于其样本来源的多样性和标注的准确性。它利用自动化与人工审核相结合的方式，确保了数据集在模拟真实世界语境方面的有效性。此外，数据集提供的情感类别全面，既有负面情感也有正面情感，还有中性情感，为情感识别研究提供了丰富的素材。

使用方法

使用Emo-Emilia数据集时，用户可以从HuggingFace平台下载数据集文件。数据集包含了音频信息和对应的情感标签。用户可以利用提供的Emotion2Vec-S模型提取音频特征，并通过C<sup>2</sup>SER-LLM模型进行情感识别。数据集的使用包括音频特征的提取和模型的训练与测试等步骤，具体方法在官方文档中有详细说明。

背景与挑战

背景概述

Emo-Emilia数据集是在模拟真实世界语境的背景下构建的，其依托于大规模多语言和多样化的语音生成资源Emilia，后者拥有超过10万小时的语音数据，涵盖广泛的情绪语境。Emo-Emilia数据集的创建，旨在为语音情感识别领域提供一个新的测试集，该测试集通过自动化标注方法对Emilia进行标注，并经过至少两名专家的人工验证，确保了标签的准确性和可靠性。该数据集最终包含1400个测试样本，覆盖了七种情绪类型（愤怒、快乐、恐惧、惊讶、中性、悲伤和厌恶），并包含中文和英文两种语言各700个样本。Emo-Emilia是Emilia数据集的一个子集，后者可通过其官方网站访问。Emo-Emilia数据集的提出，为语音情感识别研究提供了新的资源和视角，有助于推动该领域的发展。

当前挑战

在构建Emo-Emilia数据集的过程中，研究人员面临了多项挑战。首先，自动化标注方法的准确性和可靠性验证是一个重要挑战，需要通过人工审核来确保标签质量。其次，数据集的多样性和覆盖性也是一大挑战，需要确保不同情绪类型的样本均衡且具有代表性。在研究领域中，Emo-Emilia数据集的挑战还包括如何利用其进行稳定的语音情感识别，尤其是在长语音序列中减少错误累积和避免幻觉现象，这需要更先进的模型和算法来处理。

常用场景

经典使用场景

Emo-Emilia数据集作为模拟真实世界语境的测试集，其经典使用场景在于为语音情感识别任务提供稳定且准确的基准数据。通过自动化标注方法对大规模多语种情感语境的Emilia语音资源进行标注，并结合人工审核，确保了数据集的高质量和可靠性。该数据集被广泛应用于评估和验证语音情感识别模型的性能，尤其是在模型稳定性和准确性方面的表现。

实际应用

在实际应用中，Emo-Emilia数据集可用于开发情感智能助手、情感分析工具等，为用户交互体验的提升提供支持。通过该数据集训练的模型能够更好地理解和响应不同情感状态下的用户语音，从而在客户服务、教育、娱乐等多个领域实现更具情感智能的应用。

衍生相关工作

基于Emo-Emilia数据集，衍生出了诸如Emotion2Vec-S模型和C2SER-LLM模型等经典工作。这些工作不仅提升了语音情感识别的准确性和稳定性，还探索了通过上下文感知和思维链方法来指导语言模型进行更准确的情感识别，为语音情感识别领域带来了新的研究视角和技术路径。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集