多模态人类意图理解MOSI数据集
收藏国家基础学科公共科学数据中心2026-01-30 收录
下载链接:
https://nbsdc.cn/general/dataDetail?id=688f429f195d260d84ac382f&type=1
下载链接
链接失效反馈官方服务:
资源简介:
MOSI数据集的视频来源主要集中在视频博客(vlog)上。许多视频网站用户通过更新的视频表达自己对不同主题的看法,这些视频通常会用#vlog标签进行索引。视频保留了原始的上传分辨率,并以MP4格式录制,视频长度通常在2到5分钟之间。所有视频片段都经过人工转录,以提取口语词汇以及每个口语话语的开始时间。转录过程分为四个阶段。首先,由一名专家转录员手动转录所有视频;然后,第二名转录员审查并纠正转录内容。转录方案包括对停顿填充词(如"umm"、"uhh"等)、重音和语音停顿的详细标注。在第三阶段,使用名为P2FA4的强制对齐工具,将文本在单词和音素级别上与音频进行对齐。最后,手动检查比对结果,必要时使用PRAAT进行校正。音频和视觉特征从MPEG文件中自动提取,音频的帧率为1000,视频的帧率为30。视觉特征包括16个面部动作单元、68个面部标志、头部姿势和方向、6种基本情绪以及眼睛注视方向。音频特征则通过COVAREP提取,包括超过32个特征,如音调、能量、NAQ(归一化幅度商)、MFCC(梅尔频率倒谱系数)、峰值斜率和能量斜率等。
提供机构:
复旦大学
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集是一个专注于人类意图理解的多模态资源,其视频内容主要来源于网络视频博客(vlog)。数据经过人工转录和工具对齐,并自动提取了包括面部动作、情绪、音频音调等在内的丰富视觉与音频特征。
以上内容由遇见数据集搜集并总结生成



