ExHuBERT Emotion Datasets

github2024-08-07 更新2024-08-08 收录

下载链接：

https://github.com/Rumeysakeskin/Speech-Emotion-Recognition

下载链接

链接失效反馈

官方服务：

资源简介：

ExHuBERT情感数据集，包含37个数据集，总计150,907个样本，涵盖119.5小时的音频，支持14种语言，包括英语、德语、中文等。

The ExHuBERT Sentiment Dataset comprises 37 constituent datasets, totaling 150,907 samples, spanning 119.5 hours of audio content, and supports 14 languages including English, German, Chinese, and others.

创建时间：

2024-08-07

原始信息汇总

数据集概述

ExHuBERT: Enhancing HuBERT Through Block Extension and Fine-Tuning on 37 Emotion Datasets

数据集名称: ExHuBERT
数据来源: 37个情感数据集
样本数量: 150,907个样本
总时长: 119.5小时
支持语言: 英语、德语、中文、法语、荷兰语、希腊语、意大利语、西班牙语、缅甸语、希伯来语、瑞典语、波斯语、土耳其语、乌尔都语

数据集应用示例

模型加载: python import torch from transformers import AutoModelForAudioClassification, Wav2Vec2FeatureExtractor

model_name = amiriparian/ExHuBERT feature_extractor = Wav2Vec2FeatureExtractor.from_pretrained("facebook/hubert-base-ls960") model = AutoModelForAudioClassification.from_pretrained(model_name, trust_remote_code=True, revision="b158d45ed8578432468f3ab8d46cbe5974380812")
模型配置: python model.freeze_og_encoder() sampling_rate = 16000 device = torch.device("cuda" if torch.cuda.is_available() else "cpu") model = model.to(device)
音频处理与预测: python import numpy as np import librosa import torch.nn.functional as F

waveform, sr_wav = librosa.load("audio_002.wav") waveform = feature_extractor(waveform, sampling_rate=sampling_rate, padding=max_length, max_length=48000) waveform = waveform[input_values][0] waveform = waveform.reshape(1, -1) waveform = torch.from_numpy(waveform).to(device)

with torch.no_grad(): output = model(waveform) output = F.softmax(output.logits, dim=1) output = output.detach().cpu().numpy().round(2) print(output)
输出示例: python

[[0. 0. 0. 1. 0. 0.]]

Low | High Arousal

Neg. Neut. Pos. | Neg. Neut. Pos Valence

Disgust, Neutral, Kind| Anger, Surprise, Joy Example emotions

搜集汇总

数据集介绍

构建方式

在构建ExHuBERT Emotion Datasets时，研究者们采用了先进的音频情感识别技术，通过扩展和微调HuBERT Large模型，整合了37个情感数据集，总计150,907个样本，涵盖了119.5小时的音频数据。这些数据集跨越多种语言，包括英语、德语、中文等，确保了数据集的多样性和广泛性。

特点

ExHuBERT Emotion Datasets的显著特点在于其丰富的语言覆盖和情感多样性。该数据集不仅支持多种语言，还涵盖了广泛的情感类别，如愤怒、喜悦、悲伤等，为情感识别研究提供了全面的数据支持。此外，数据集的高质量音频样本和精细的情感标签，使得其在情感分析领域具有极高的应用价值。

使用方法

使用ExHuBERT Emotion Datasets时，用户可以通过加载预训练的模型和特征提取器，对本地音频文件进行情感分类。具体步骤包括配置模型、加载音频文件、进行特征提取和模型推理。通过这些步骤，用户可以获得音频文件的情感分类结果，从而应用于各种情感识别任务中。

背景与挑战

背景概述

在情感识别领域，音频文件中的情感分析一直是研究的热点。ExHuBERT Emotion Datasets由主要研究人员Amiriparian创建，旨在通过扩展和微调HuBERT模型，提升离线情感识别的准确性。该数据集整合了37个情感数据集，总计150,907个样本，涵盖119.5小时的音频数据，支持多种语言，包括英语、德语、中文等。这一数据集的创建不仅丰富了情感识别的语料库，还为跨语言情感分析提供了宝贵的资源，推动了情感计算领域的发展。

当前挑战

ExHuBERT Emotion Datasets在构建过程中面临多项挑战。首先，多语言情感数据的整合需要克服语言间的文化差异和情感表达的多样性。其次，数据集的规模庞大，如何高效地进行数据预处理和模型训练是一个技术难题。此外，情感识别模型的泛化能力也是一个关键挑战，尤其是在处理不同语言和不同情感类别时，模型的鲁棒性和准确性需要进一步提升。这些挑战不仅影响了数据集的构建效率，也对后续的模型应用提出了更高的要求。

常用场景

经典使用场景

在情感识别领域，ExHuBERT Emotion Datasets 数据集的经典使用场景主要集中在音频文件的情感分析上。该数据集通过整合37个不同来源的情感数据集，提供了丰富的情感标注样本，涵盖了多种语言和情感类别。研究者和开发者可以利用这些数据进行模型训练，以实现对音频文件中情感状态的精准识别和分类。

解决学术问题

ExHuBERT Emotion Datasets 数据集解决了情感识别领域中多语言和多情感类别分类的学术研究问题。通过提供跨语言和多情感类别的标注数据，该数据集为研究者提供了一个统一的基准，促进了情感识别模型在不同语言和文化背景下的泛化能力研究。这不仅推动了情感识别技术的发展，也为跨文化情感交流研究提供了重要的数据支持。

衍生相关工作

基于 ExHuBERT Emotion Datasets 数据集，研究者们开发了多种先进的情感识别模型，如基于深度学习的情感分类器和跨语言情感迁移学习模型。这些模型不仅在学术界引起了广泛关注，也在实际应用中展现了强大的性能。此外，该数据集还激发了多语言情感数据库的构建和跨文化情感研究的新方向，推动了情感计算领域的整体进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集

ExHuBERT Emotion Datasets

数据集概述

ExHuBERT: Enhancing HuBERT Through Block Extension and Fine-Tuning on 37 Emotion Datasets

数据集应用示例

[[0. 0. 0. 1. 0. 0.]]

Low | High Arousal

Neg. Neut. Pos. | Neg. Neut. Pos Valence

Disgust, Neutral, Kind| Anger, Surprise, Joy Example emotions