EXPOTION dataset

Name: EXPOTION dataset
Creator: Mohamed bin Zayed University of Artificial Intelligence, United Arab Emirates
Published: 2025-07-07 20:56:20
License: 暂无描述

arXiv2025-07-07 更新2025-07-10 收录

下载链接：

https://github.com/xinyueli2896/Expotion.git

下载链接

链接失效反馈

官方服务：

资源简介：

EXPOTION数据集是Mohamed bin Zayed University of Artificial Intelligence创建的一个多模态音乐生成数据集，包含7小时同步的视频录音，记录了表情丰富的面部和上半身手势，与相应的音乐对齐。该数据集旨在为未来在多模态和交互式音乐生成领域的研究提供重要支持。数据集由志愿者录制，他们在听30秒音频剪辑时进行面部表情和上半身运动，音频剪辑来自Epidemic Sound的授权乐器曲目。数据集被剪辑成每10秒一个片段，并使用音频字幕模型SALMONN生成每个音频剪辑的字幕，用于训练和推理过程中的文本提示。

The EXPOTION dataset is a multimodal music generation dataset developed by Mohamed bin Zayed University of Artificial Intelligence. It contains 7 hours of synchronized video recordings that capture expressive facial expressions and upper-body gestures, aligned with their corresponding musical accompaniments. This dataset is intended to provide critical support for future research in the fields of multimodal and interactive music generation. The dataset was recorded by volunteer participants, who performed facial expressions and upper-body movements while listening to 30-second audio clips sourced from licensed instrumental tracks provided by Epidemic Sound. The dataset is segmented into 10-second clips, and subtitles for each audio clip are generated using the audio captioning model SALMONN, which are utilized as text prompts for both training and inference workflows.

提供机构：

Mohamed bin Zayed University of Artificial Intelligence, United Arab Emirates

创建时间：

2025-07-07

搜集汇总

数据集介绍

构建方式

EXPOTION数据集的构建过程体现了多模态数据采集的前沿理念。研究团队通过精心设计的实验范式，招募志愿者在聆听30秒授权音乐片段时同步录制面部表情和上半身动作，最终收集了7小时的视频-音乐配对数据。为确保数据质量，采用分层采样策略将原始素材切割为10秒片段，并保留30分钟作为验证集。特别值得注意的是，团队运用SALMONN音频描述模型为每段音乐生成文本提示，形成了视觉-听觉-语义的三维数据对齐，为多模态音乐生成研究提供了宝贵资源。

使用方法

使用该数据集时建议采用参数高效微调（PEFT）技术，仅需训练原模型4%的参数即可实现多模态适配。研究者可将视频流分别输入面部表情编码器（输出768维特征）和动作编码器（输出256维特征），经时空插值后与MusicGen的隐层维度对齐。数据集提供的文本提示可作为辅助条件输入，通过交叉注意力机制与视觉特征融合。评估阶段推荐采用FAD-VGG、节奏一致性等指标，同时结合CLAP和LanguageBind模型测量跨模态相似度，全面检验生成音乐与输入视频的语义同步性。

背景与挑战

背景概述

EXPOTION数据集由Mohamed bin Zayed人工智能大学的Fathinah Izzati、Xinyue Li和Gus Xia等研究人员于2025年创建，旨在推动多模态音乐生成领域的研究。该数据集包含7小时的同步视频-音乐对，重点关注面部表情和上半身动作与音乐的精细时间对齐。其核心研究问题在于如何利用视觉信号（如表情和动作）与文本提示相结合，生成具有高表现力和时间准确性的音乐。EXPOTION的提出填补了现有文本到音乐生成模型在细粒度时间控制和表现力方面的不足，为交互式视听系统的开发提供了重要基础。

当前挑战

EXPOTION数据集面临的挑战主要包括两个方面：在领域问题层面，如何精确捕捉面部表情和身体动作的细微动态，并将其映射到音乐的节奏、情感和表现力上是一个关键挑战；在构建过程中，数据收集和同步对齐是主要难点，需要志愿者在聆听音乐时自然表现表情和动作，并确保视频与音乐的时间对齐精确到帧级别。此外，由于数据规模有限（仅130个训练样本），如何通过参数高效微调技术在小数据集上实现多模态融合也是一个重要挑战。

常用场景

经典使用场景

EXPOTION数据集在多模态音乐生成领域具有广泛的应用场景，特别是在结合面部表情和上半身动作生成音乐方面。该数据集通过提供7小时的同步视频-音乐对，为研究人员提供了丰富的实验材料。这些数据不仅包含了多样化的音乐风格，如流行、爵士、古典等，还记录了与音乐情感相匹配的面部表情和身体动作。这使得该数据集成为研究音乐与视觉表达之间关系的理想选择。

解决学术问题

EXPOTION数据集解决了多模态音乐生成中的关键学术问题，尤其是如何将视觉信号（如面部表情和身体动作）与音乐生成精确同步的问题。通过引入时间平滑策略，该数据集确保了视觉和音频模态之间的精细时间对齐。此外，该数据集还解决了如何在有限数据条件下进行高效模型训练的问题，通过参数高效微调（PEFT）技术，仅需130个视频-音频对即可实现强大的多模态融合。

实际应用

在实际应用中，EXPOTION数据集为实时交互式视听系统提供了重要支持。例如，在音乐表演、虚拟现实和游戏开发中，该数据集可以用于生成与用户面部表情和身体动作同步的背景音乐。此外，该数据集还可用于情感计算和人机交互领域，通过分析用户的视觉表达生成相应的音乐反馈，从而提升用户体验。

数据集最近研究