five

Multimodal Opinion-level Sentiment Intensity dataset (MOSI)|情感分析数据集|多模态分析数据集

收藏
arXiv2016-08-12 更新2024-07-25 收录
情感分析
多模态分析
下载链接:
abagherz@cs.cmu.edu
下载链接
链接失效反馈
资源简介:
MOSI数据集是由卡内基梅隆大学创建的,用于研究在线视频中的情感和主观性分析。该数据集包含3702个视频片段,严格标注了主观性、情感强度、视觉和音频特征。数据集内容丰富,包括转录文本、自动提取的音频和视觉特征,以及情感强度标注。创建过程涉及视频收集、手动转录和特征提取。MOSI数据集主要应用于情感分析和主观性研究,旨在解决视频情感分析中的挑战,如情感强度的量化和多模态信息的融合。
提供机构:
卡内基梅隆大学
创建时间:
2016-06-21
AI搜集汇总
数据集介绍
构建方式
MOSI数据集的构建过程严格遵循多模态情感强度和主观性分析的需求。首先,从YouTube网站上收集了93个视频博客,这些视频主要由单个演讲者录制,内容涵盖广泛的主题。随后,对这些视频进行了手动转录,并使用P2FA工具在单词和音素级别上与音频进行了对齐。为了实现细粒度的主观性分割,研究团队开发了一套主观性标注方案,将视频片段细分为2199个主观性片段和1503个客观性片段。此外,通过Amazon Mechanical Turk平台,对这些主观性片段进行了情感强度标注,标注范围从-3(强烈负面)到+3(强烈正面)。最后,自动提取了音频和视觉特征,包括面部动作单元、面部标志、头部姿态和基本情绪等,以支持多模态分析。
特点
MOSI数据集的显著特点在于其多模态性和细粒度性。该数据集不仅包含了文本、音频和视觉三种模态的数据,还提供了主观性和情感强度的细粒度标注。这种多模态的融合使得研究者能够深入探讨不同模态间的交互关系,特别是在情感分析领域。此外,MOSI数据集的情感强度标注采用了一个从-3到+3的线性尺度,这为情感强度的量化研究提供了丰富的数据支持。数据集的高标注一致性(Krippendorf's Alpha达到0.68)确保了数据的高质量,使其成为情感分析研究的宝贵资源。
使用方法
MOSI数据集的使用方法多样,适用于多种情感分析和多模态研究的场景。研究者可以利用该数据集进行情感强度预测模型的训练和评估,通过结合文本、音频和视觉特征,提升模型的预测精度。此外,数据集的主观性分割和情感强度标注可以用于开发和验证细粒度情感分析算法。对于多模态研究,MOSI数据集提供了文本、音频和视觉特征的同步对齐,使得研究者能够探索不同模态间的交互模式。最后,数据集的公开性使得全球的研究者都能访问和利用这一资源,推动情感分析和多模态研究的进步。
背景与挑战
背景概述
随着在线视频分享平台的普及,如YouTube、Vine和Vimeo,人们通过这些平台分享他们的观点、故事和评论已成为一种普遍现象。这种趋势引起了学术界和工业界的广泛关注,尤其是在情感和主观性分析领域。尽管文本情感分析已经取得了显著进展,但对于视频和多媒体内容的情感分析仍是一个相对未被充分研究的问题。MOSI数据集由卡内基梅隆大学和南加州大学的研究人员于近年创建,旨在填补这一研究空白。该数据集包含了来自YouTube等平台的视频,经过严格标注,涵盖了主观性、情感强度、视觉特征和音频特征等多个维度。MOSI数据集的推出不仅为多模态情感分析提供了宝贵的资源,还为未来的研究奠定了基础,特别是在多模态融合和情感强度估计方面。
当前挑战
MOSI数据集在构建过程中面临了多个挑战。首先,由于视频内容的高动态性和快速变化,准确识别和分割不同观点表达的片段变得尤为困难。其次,情感强度的细微差别使得不仅需要识别情感的极性(如正面或负面),还需要估计情感的强度。最后,如何有效利用文本以外的信息,如视觉和音频特征,以消除仅依赖文本分析带来的模糊性,是一个根本性的研究问题。此外,数据集的构建还需要解决多模态数据的对齐问题,确保文本、视觉和音频特征的同步性,以便进行有效的多模态分析。这些挑战不仅影响了数据集的质量,也对后续的情感分析研究提出了更高的要求。
常用场景
经典使用场景
MOSI数据集的经典使用场景主要集中在多模态情感强度分析领域。研究者利用该数据集进行情感和主观性分析,通过结合语音、视觉和文本信息,探索不同模态间的交互模式。例如,研究者可以分析视频中说话者的面部表情、头部动作以及语音特征,以更准确地评估情感强度。
实际应用
MOSI数据集在实际应用中具有广泛的前景,特别是在社交媒体分析、客户反馈系统和情感驱动的推荐系统中。例如,企业可以利用该数据集训练模型,自动分析用户在社交媒体上的视频评论,以了解公众对产品的情感反应。此外,该数据集还可用于开发情感智能助手,帮助用户更好地理解和处理情感信息。
衍生相关工作
基于MOSI数据集,研究者们开发了多种多模态情感分析模型和方法。例如,Poria等人(2015)利用卷积神经网络进行多模态情感分析,而Morency等人(2011)则提出了早期融合方法,直接将不同模态的数据进行拼接。此外,MOSI数据集还促进了多模态字典的构建,通过分析词语与面部表情的交互模式,进一步提升了情感分析的准确性。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

CatMeows

该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。

huggingface 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

GME Data

关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。

github 收录

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录