多模态人类意图理解MOSI数据集

Name: 多模态人类意图理解MOSI数据集
Creator: 复旦大学
License: 暂无描述

国家基础学科公共科学数据中心2026-01-30 收录

下载链接：

https://nbsdc.cn/general/dataDetail?id=688f429f195d260d84ac382f&type=1

下载链接

链接失效反馈

官方服务：

资源简介：

MOSI数据集的视频来源主要集中在视频博客（vlog）上。许多视频网站用户通过更新的视频表达自己对不同主题的看法，这些视频通常会用#vlog标签进行索引。视频保留了原始的上传分辨率，并以MP4格式录制，视频长度通常在2到5分钟之间。所有视频片段都经过人工转录，以提取口语词汇以及每个口语话语的开始时间。转录过程分为四个阶段。首先，由一名专家转录员手动转录所有视频；然后，第二名转录员审查并纠正转录内容。转录方案包括对停顿填充词（如"umm"、"uhh"等）、重音和语音停顿的详细标注。在第三阶段，使用名为P2FA4的强制对齐工具，将文本在单词和音素级别上与音频进行对齐。最后，手动检查比对结果，必要时使用PRAAT进行校正。音频和视觉特征从MPEG文件中自动提取，音频的帧率为1000，视频的帧率为30。视觉特征包括16个面部动作单元、68个面部标志、头部姿势和方向、6种基本情绪以及眼睛注视方向。音频特征则通过COVAREP提取，包括超过32个特征，如音调、能量、NAQ（归一化幅度商）、MFCC（梅尔频率倒谱系数）、峰值斜率和能量斜率等。

提供机构：

复旦大学

搜集汇总

数据集介绍

背景与挑战

背景概述

该数据集是一个专注于人类意图理解的多模态资源，其视频内容主要来源于网络视频博客（vlog）。数据经过人工转录和工具对齐，并自动提取了包括面部动作、情绪、音频音调等在内的丰富视觉与音频特征。

以上内容由遇见数据集搜集并总结生成