RavdessZeroshot

Hugging Face2026-01-17 更新2026-01-18 收录

下载链接：

https://huggingface.co/datasets/mteb/RavdessZeroshot

下载链接

链接失效反馈

官方服务：

资源简介：

RavdessZeroshot是一个情感分类数据集，基于RAVDESS（Ryerson Audio-Visual Database of Emotional Speech and Song）数据集构建。RAVDESS包含24位专业演员（12名女性，12名男性）用中性北美口音表达的两种词汇匹配的语句。语音情感包括中性、平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶等8种情感，这些情感也作为数据集的标签。数据集主要用于情感分类和文本到音频的任务，属于MTEB（Massive Text Embedding Benchmark）的一部分。

创建时间：

2026-01-17

原始信息汇总

RavdessZeroshot 数据集概述

数据集基本信息

数据集名称: RavdessZeroshot
创建者: 人工标注
语言: 英语
许可证: CC-BY-NC-SA 3.0
多语言性: 单语言
任务类别: 其他、文本到音频
任务ID: 情感分类
标签: mteb、audio、text

数据集来源

源数据集: narad/ravdess
参考链接: https://huggingface.co/datasets/narad/ravdess

数据集描述

RavdessZeroshot是一个情感分类数据集。RAVDESS包含24位专业演员（12位女性，12位男性），以中性的北美口音说出两个词汇匹配的语句。语音情感包括中性、平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶表达。这8种情感也作为数据集的标签。

数据集配置与结构

配置1: default

特征:
- audio: 音频
- labels: int64
数据分割:
- train: 1440个样本，511660544字节
下载大小: 312073871字节
数据集大小: 511660544字节
数据文件路径: data/train-*

配置2: labels

特征:
- labels: string
数据分割:
- train: 8个样本，263字节
下载大小: 915字节
数据集大小: 263字节
数据文件路径: labels/train-*

评估方法

可使用MTEB库评估嵌入模型在该数据集上的性能。示例代码： python import mteb task = mteb.get_task("RavdessZeroshot") evaluator = mteb.MTEB([task]) model = mteb.get_model(YOUR_MODEL) evaluator.run(model)

引用信息

源数据集引用

bibtex @article{10.1371/journal.pone.0196391, author = {Livingstone, Steven R. AND Russo, Frank A.}, doi = {10.1371/journal.pone.0196391}, journal = {PLOS ONE}, month = {05}, number = {5}, pages = {1-35}, publisher = {Public Library of Science}, title = {The Ryerson Audio-Visual Database ofal Speech and Song (RAVDESS): A dynamic, multimodal set of facial and vocal expressions in North American English}, url = {https://doi.org/10.1371/journal.pone.0196391}, volume = {13}, year = {2018}, }

MTEB相关引用

bibtex @article{enevoldsen2025mmtebmassivemultilingualtext, title={MMTEB: Massive Multilingual Text Embedding Benchmark}, author={Kenneth Enevoldsen and Isaac Chung and Imene Kerboua and Márton Kardos and Ashwin Mathur and David Stap and Jay Gala and Wissam Siblini and Dominik Krzemiński and Genta Indra Winata and Saba Sturua and Saiteja Utpala and Mathieu Ciancone and Marion Schaeffer and Gabriel Sequeira and Diganta Misra and Shreeya Dhakal and Jonathan Rystrøm and Roman Solomatin and Ömer Çağatan and Akash Kundu and Martin Bernstorff and Shitao Xiao and Akshita Sukhlecha and Bhavish Pahwa and Rafał Poświata and Kranthi Kiran GV and Shawon Ashraf and Daniel Auras and Björn Plüster and Jan Philipp Harries and Loïc Magne and Isabelle Mohr and Mariya Hendriksen and Dawei Zhu and Hippolyte Gisserot-Boukhlef and Tom Aarsen and Jan Kostkan and Konrad Wojtasik and Taemin Lee and Marek Šuppa and Crystina Zhang and Roberta Rocca and Mohammed Hamdy and Andrianos Michail and John Yang and Manuel Faysse and Aleksei Vatolin and Nandan Thakur and Manan Dey and Dipam Vasani and Pranjal Chitale and Simone Tedeschi and Nguyen Tai and Artem Snegirev and Michael Günther and Mengzhou Xia and Weijia Shi and Xing Han Lù and Jordan Clive and Gayatri Krishnakumar and Anna Maksimova and Silvan Wehrli and Maria Tikhonova and Henil Panchal and Aleksandr Abramov and Malte Ostendorff and Zheng Liu and Simon Clematide and Lester James Miranda and Alena Fenogenova and Guangyu Song and Ruqiya Bin Safi and Wen-Ding Li and Alessia Borghini and Federico Cassano and Hongjin Su and Jimmy Lin and Howard Yen and Lasse Hansen and Sara Hooker and Chenghao Xiao and Vaibhav Adlakha and Orion Weller and Siva Reddy and Niklas Muennighoff}, publisher = {arXiv}, journal={arXiv preprint arXiv:2502.13595}, year={2025}, url={https://arxiv.org/abs/2502.13595}, doi = {10.48550/arXiv.2502.13595}, }

@article{muennighoff2022mteb, author = {Muennighoff, Niklas and Tazi, Nouamane and Magne, Loïc and Reimers, Nils}, title = {MTEB: Massive Text Embedding Benchmark}, publisher = {arXiv}, journal={arXiv preprint arXiv:2210.07316}, year = {2022} url = {https://arxiv.org/abs/2210.07316}, doi = {10.48550/ARXIV.2210.07316}, }

搜集汇总

数据集介绍

构建方式

在语音情感识别领域，RavdessZeroshot数据集基于著名的Ryerson Audio-Visual Database of Emotional Speech and Song（RAVDESS）构建而成。该数据集通过精心设计的实验流程，由24位专业演员（男女各半）以北美中性口音录制了两组词汇匹配的语句，涵盖了中性、平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶八种情感状态。这些录音经过人工标注，确保了情感标签的准确性与一致性，最终形成了包含1440个音频样本的训练集，为情感分类任务提供了高质量的语音数据基础。

使用方法

针对嵌入模型的性能评估，RavdessZeroshot数据集可通过MTEB框架便捷调用。研究者只需导入mteb库并指定任务名称，即可初始化评估器加载该数据集。模型经封装后，评估器将自动执行零样本分类流程，分析嵌入表示在八维情感空间中的判别效力。使用前需引用原始RAVDESS文献及MTEB基准论文，以遵循学术规范。该集成化方法大幅简化了语音情感嵌入模型的跨任务比较，推动了自然语言处理与语音计算的交叉进展。

背景与挑战

背景概述

情感计算作为人机交互与人工智能交叉领域的关键研究方向，致力于赋予机器识别、理解与表达人类情感的能力。RavdessZeroshot数据集源于2018年由Steven R. Livingstone与Frank A. Russo等学者创建的RAVDESS（Ryerson Audio-Visual Database of Emotional Speech and Song）数据库，该库收录了24位专业演员以北美英语口音演绎的语音与歌曲，涵盖中性、平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶八种基本情感。作为大规模文本嵌入基准（MTEB）的重要组成部分，该数据集旨在推动零样本学习在音频情感分类任务中的应用，通过构建高质量的标注语料，为跨模态情感分析模型的训练与评估提供了标准化资源，对语音情感识别、多模态机器学习等领域产生了深远影响。

当前挑战

在音频情感分类领域，模型需克服情感表达的复杂性与主观性挑战，例如同一语句在不同语境或个体差异下可能承载迥异的情感色彩，且跨文化的情感感知差异进一步增加了分类难度。构建RavdessZeroshot数据集时，研究人员面临多重挑战：其一，确保语音样本的情感标注具有高一致性与可靠性，需通过严格的人工审核流程以降低标注偏差；其二，在零样本学习框架下，如何设计有效的评估范式，使模型能够泛化至未见过的说话者或语境，这对数据集的划分与任务设计提出了更高要求；其三，原始RAVDESS数据需经过精细的预处理与格式转换，以适配MTEB基准的统一接口，此过程涉及音频特征提取、标签映射与数据分割等复杂操作，需保持数据完整性并避免信息损失。

常用场景

经典使用场景

在语音情感识别领域，RavdessZeroshot数据集常被用于零样本学习场景下的模型评估与优化。该数据集基于RAVDESS原始语料构建，包含八种基本情感类别，通过专业演员的标准化演绎确保了情感表达的纯净度与一致性。研究者利用其音频片段与对应情感标签，训练嵌入模型在未见过的情感类别上进行泛化能力测试，从而推动跨域情感识别技术的发展。

解决学术问题

该数据集主要针对情感计算中零样本学习的核心挑战，即模型在训练阶段未接触过的情感类别上的识别能力。通过提供多说话者、多情感维度的标准化语音样本，它帮助研究者解决跨说话者泛化、情感特征解耦以及小样本场景下的模型鲁棒性问题。其意义在于为语音情感嵌入模型提供了基准测试平台，促进了多模态情感分析方法的理论创新与性能突破。

实际应用

在实际应用中，RavdessZeroshot数据集支撑了智能客服系统中的情感感知模块开发，使系统能够根据用户语音中的情绪动态调整响应策略。同时，它在心理健康辅助诊断工具中发挥作用，通过分析语音情感特征辅助评估抑郁或焦虑倾向。此外，该数据集也为娱乐产业的情感驱动内容生成提供了数据基础，例如游戏或虚拟角色中的实时情感交互系统。

数据集最近研究