Emo-Emilia|情感识别数据集|多语种语音处理数据集

github2025-03-03 更新2025-02-28 收录

情感识别

多语种语音处理

下载链接：

https://github.com/zxzhao0/C2SER

下载链接

链接失效反馈

资源简介：

Emo-Emilia是一个新的语音情感识别测试集，用于更好地模拟真实世界的环境。它通过自动化标注方法对Emilia进行标注，Emilia是一个大规模的多语言和多样化的语音生成资源，包含超过100,000小时的语音数据，涵盖广泛的情感语境。每个语句至少由两名专家进行验证，以确保情感标签的准确性和可靠性。最终提出的测试集Emo-Emilia包含1400个测试样本，涵盖七种情感类别（愤怒、快乐、恐惧、惊讶、中性、悲伤和厌恶），每种语言（中文和英文）各有700个样本。

创建时间：

2025-02-15

原始信息汇总

C²SER 数据集概述

1. 数据集简介

名称: Emo-Emilia
类型: 语音情感识别测试集
语言: 中英双语
规模: 1400个测试样本（中英文各700个）
情感类别: 7类（愤怒、快乐、恐惧、惊讶、中性、悲伤、厌恶）
每类样本量: 100个/语言

2. 数据来源

基于Emilia数据集子集构建
原始数据集: Emilia数据集
下载地址: HuggingFace

3. 标注信息

采用自动化标注+人工验证方式
每个样本由至少两名专家验证
标注文件: ./Emo-Emilia/Emo-Emilia-ALL.jsonl

4. 相关模型

Emotion2Vec-S

类型: 自监督语音情感识别模型
特点:
- 扩展自Emotion2Vec
- 采用半监督学习增强情感区分能力
预训练模型:
- HuggingFace
- Google Drive

C²SER-LLM

类型: 音频语言模型
核心方法:
- 上下文感知
- 思维链(CoT)推理
- 显式到隐式CoT的自蒸馏
预训练模型:
- 基础模型: Qwen-7B
- 微调模型: HuggingFace

5. 特征提取

输入要求: wav.scp文件格式
提取级别: 帧级/语句级
脚本路径: ./Emotion2Vec-S/speech_feature_extraction.py
批量处理脚本: ./Emotion2Vec-S/extract_feature.sh

6. 推理流程

使用Emotion2Vec-S提取语句级特征
修改./C2SER-llm/infer_runtime.py中的路径参数
选择阶段提示词（Stage1/Stage2）
运行推理脚本

AI搜集汇总

数据集介绍

构建方式

Emo-Emilia数据集的构建，是基于大规模多语种语音生成资源Emilia，通过自动化标注方法对Emilia中的语音数据进行情感标注，并经过至少两位专家的人工审核以确保标签的准确性和可靠性。该数据集最终包含1400个测试样本，涵盖七种情感类别（愤怒、快乐、恐惧、惊讶、中性、悲伤和厌恶），并包含中文和英文两种语言。

特点

Emo-Emilia数据集的特点在于其样本来源的多样性和标注的准确性。它利用自动化与人工审核相结合的方式，确保了数据集在模拟真实世界语境方面的有效性。此外，数据集提供的情感类别全面，既有负面情感也有正面情感，还有中性情感，为情感识别研究提供了丰富的素材。

使用方法

使用Emo-Emilia数据集时，用户可以从HuggingFace平台下载数据集文件。数据集包含了音频信息和对应的情感标签。用户可以利用提供的Emotion2Vec-S模型提取音频特征，并通过C<sup>2</sup>SER-LLM模型进行情感识别。数据集的使用包括音频特征的提取和模型的训练与测试等步骤，具体方法在官方文档中有详细说明。

背景与挑战

背景概述

Emo-Emilia数据集是在模拟真实世界语境的背景下构建的，其依托于大规模多语言和多样化的语音生成资源Emilia，后者拥有超过10万小时的语音数据，涵盖广泛的情绪语境。Emo-Emilia数据集的创建，旨在为语音情感识别领域提供一个新的测试集，该测试集通过自动化标注方法对Emilia进行标注，并经过至少两名专家的人工验证，确保了标签的准确性和可靠性。该数据集最终包含1400个测试样本，覆盖了七种情绪类型（愤怒、快乐、恐惧、惊讶、中性、悲伤和厌恶），并包含中文和英文两种语言各700个样本。Emo-Emilia是Emilia数据集的一个子集，后者可通过其官方网站访问。Emo-Emilia数据集的提出，为语音情感识别研究提供了新的资源和视角，有助于推动该领域的发展。

当前挑战

在构建Emo-Emilia数据集的过程中，研究人员面临了多项挑战。首先，自动化标注方法的准确性和可靠性验证是一个重要挑战，需要通过人工审核来确保标签质量。其次，数据集的多样性和覆盖性也是一大挑战，需要确保不同情绪类型的样本均衡且具有代表性。在研究领域中，Emo-Emilia数据集的挑战还包括如何利用其进行稳定的语音情感识别，尤其是在长语音序列中减少错误累积和避免幻觉现象，这需要更先进的模型和算法来处理。

常用场景

经典使用场景

Emo-Emilia数据集作为模拟真实世界语境的测试集，其经典使用场景在于为语音情感识别任务提供稳定且准确的基准数据。通过自动化标注方法对大规模多语种情感语境的Emilia语音资源进行标注，并结合人工审核，确保了数据集的高质量和可靠性。该数据集被广泛应用于评估和验证语音情感识别模型的性能，尤其是在模型稳定性和准确性方面的表现。

实际应用

在实际应用中，Emo-Emilia数据集可用于开发情感智能助手、情感分析工具等，为用户交互体验的提升提供支持。通过该数据集训练的模型能够更好地理解和响应不同情感状态下的用户语音，从而在客户服务、教育、娱乐等多个领域实现更具情感智能的应用。

衍生相关工作

基于Emo-Emilia数据集，衍生出了诸如Emotion2Vec-S模型和C2SER-LLM模型等经典工作。这些工作不仅提升了语音情感识别的准确性和稳定性，还探索了通过上下文感知和思维链方法来指导语言模型进行更准确的情感识别，为语音情感识别领域带来了新的研究视角和技术路径。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

CosyVoice 2

CosyVoice 2是由阿里巴巴集团开发的多语言语音合成数据集，旨在通过大规模多语言数据集训练，实现高质量的流式语音合成。数据集通过有限标量量化技术改进语音令牌的利用率，并结合预训练的大型语言模型作为骨干，支持流式和非流式合成。数据集的创建过程包括文本令牌化、监督语义语音令牌化、统一文本-语音语言模型和块感知流匹配模型等步骤。该数据集主要应用于语音合成领域，旨在解决高延迟和低自然度的问题，提供接近人类水平的语音合成质量。

arXiv 收录

中国行政区划shp数据

中国行政区划数据是重要的基础地理信息数据，目前不同来源的全国行政区划数据非常多，但能够开放获取的高质量行政区域数据少之又少。基于此，锐多宝的地理空间制作一套2013-2023年可开放获取的高质量行政区划数据。该套数据以2022年国家基础地理信息数据中的县区划数据作为矢量基础，辅以高德行政区划数据、天地图行政区划数据，参考历年来民政部公布的行政区划为属性基础，具有时间跨度长、属性丰富、国界准确、更新持续等特性。中国行政区划数据统计截止时间是2023年2月12日，包含省、市、县、国界、九段线等矢量shp数据。该数据基于2020年行政区划底图，按时间顺序依次制作了2013-2023年初的行政区划数据。截止2023年1月1日，我国共有34个省级单位，分别是4个直辖市、23个省、5个自治区和2个特别行政区。截止2023年1月1日，我国共有333个地级单位，分别是293个地级市、7个地区、30个自治州和3个盟，其中38个矢量要素未纳入统计（比如直辖市北京等、特别行政区澳门等、省直辖县定安县等）。截止2023年1月1日，我国共有2843个县级单位，分别是1301个县、394个县级市、977个市辖区、117个自治县、49个旗、3个自治旗、1个特区和1个林区，其中9个矢量要素未纳入县级类别统计范畴（比如特别行政区香港、无县级单位的地级市中山市东莞市等）。

CnOpenData 收录

Tropicos

Tropicos是一个全球植物名称数据库，包含超过130万种植物的名称、分类信息、分布数据、图像和参考文献。该数据库由密苏里植物园维护，旨在为植物学家、生态学家和相关领域的研究人员提供全面的植物信息。

www.tropicos.org 收录

ChemBL

ChemBL是一个化学信息学数据库，包含大量生物活性数据，涵盖了药物发现和开发过程中的各种化学实体。数据集包括化合物的结构信息、生物活性数据、靶点信息等。

www.ebi.ac.uk 收录

中国1km分辨率逐月降水量数据集（1901-2023）

该数据集为中国逐月降水量数据，空间分辨率为0.0083333°（约1km），时间为1901.1-2023.12。数据格式为NETCDF，即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集，通过Delta空间降尺度方案在中国降尺度生成的。并且，使用496个独立气象观测点数据进行验证，验证结果可信。本数据集包含的地理空间范围是全国主要陆地（包含港澳台地区），不含南海岛礁等区域。为了便于存储，数据均为int16型存于nc文件中，降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理，Matlab发布了读入与存储nc文件的函数，读取函数为ncread，切换到nc文件存储文件夹，语句表达为：ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent])，其中XXX.nc为文件名，为字符串需要’’；var是从XXX.nc中读取的变量名，为字符串需要’’；i、j、t分别为读取数据的起始行、列、时间，leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样，研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令，可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心收录