FMSA-SC

github2024-03-21 更新2024-05-31 收录

下载链接：

https://github.com/sunlitsong/FMSA-SC-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

基于股票评论视频的细粒度多模态情感分析数据集，提供了视频的多模态情感标注和文本、视觉、声学模态的单模态情感标注。此外，还提供了与视觉和声学模态对齐的文本短语级别的细粒度标注。

A fine-grained multimodal sentiment analysis dataset based on stock commentary videos, providing multimodal sentiment annotations for videos as well as unimodal sentiment annotations for text, visual, and acoustic modalities. Additionally, it offers fine-grained phrase-level annotations aligned with the visual and acoustic modalities.

创建时间：

2024-03-20

原始信息汇总

数据集概述

名称: FMSA-SC: A Fine-grained Multimodal Sentiment Analysis Dataset based on Stock Comment Videos

描述: FMSA-SC是一个细粒度的多模态情感分析数据集，基于1,247个股票评论视频构建。该数据集提供了视频的多模态情感标注，以及文本、视觉和声学模态的单模态情感标注。此外，FMSA-SC还提供了细粒度标注，将文本在短语级别与视觉和声学模态对齐。

数据集内容

多模态情感标注: 视频级别的情感标注。
单模态情感标注: 文本、视觉和声学模态的情感标注。
细粒度标注: 文本短语与视觉和声学模态的对齐标注。

数据集使用

数据文件: feature.pkl 包含训练、验证和测试集。
数据存储位置: 数据文件应放置在 "MCSA" 文件夹中。
数据集大小: 约16G，可通过Baidu Cloud下载。

实验与模型

训练与测试: 提供 run_train 和 run_test 函数用于模型训练和测试。
配置文件: 所有最佳模型的配置文件位于 "FGMSA_code/config" 文件夹中。
模型文件: 所有最佳模型的 .pth 文件位于 "models_trained" 文件夹中。

引用信息

@ARTICLE{10428083, author={Song, Lingyun and Chen, Siyu and Meng, Ziyang and Sun, Mingxuan and Shang, Xuequn}, journal={IEEE Transactions on Multimedia}, title={FMSA-SC: A Fine-grained Multimodal Sentiment Analysis Dataset based on Stock Comment Videos}, year={2024}, volume={}, number={}, pages={1-13}, keywords={Videos;Stock markets;Annotations;Task analysis;Acoustics;Visualization;Web sites}, doi={10.1109/TMM.2024.3363641}}

搜集汇总

数据集介绍

构建方式

在金融市场的情感分析领域，现有的研究多集中于单一文本模态，而忽略了多模态信息的综合利用。为了填补这一空白，FMSA-SC数据集应运而生，其构建基于1,247个股票评论视频，涵盖了文本、视觉和声学三种模态的情感标注。该数据集不仅提供了多模态情感标注，还通过细粒度的方式将文本的短语级别与视觉和声学模态对齐，从而为多模态情感分析提供了丰富的数据支持。

特点

FMSA-SC数据集的显著特点在于其细粒度和多模态的特性。首先，数据集通过细粒度标注，将文本的短语级别与视觉和声学模态精确对齐，使得情感分析更加精准。其次，该数据集包含了文本、视觉和声学三种模态的情感标注，为研究者提供了多维度的情感信息。此外，数据集的规模适中，适合进行多任务学习框架的实验和验证。

使用方法

使用FMSA-SC数据集进行研究时，首先需通过Python API加载数据集的特征文件`feature.pkl`，该文件包含了训练、验证和测试集。随后，可以通过`run_train`函数进行模型训练，并通过`run_test`函数评估模型性能。数据集的配置文件位于`FGMSA_code/config`目录下，用户可以根据需求调整超参数。此外，数据集的特征文件较大，需从百度云下载并放置在指定目录下以确保代码正常运行。

背景与挑战

背景概述

在情感分析（Sentiment Analysis, SA）领域，多模态情感分析通过整合多种同步模态的情感线索，显著提升了分析效果。然而，现有的股票市场情感分析数据集仅提供文本评论，这些评论往往包含情感模糊或反讽的词汇，难以准确捕捉真实情感。为填补这一空白，Song等人于2024年创建了FMSA-SC数据集，该数据集基于1,247个股票评论视频，提供了多模态情感标注以及文本、视觉和声学模态的单模态情感标注。此外，FMSA-SC还通过短语级别的细粒度标注，将文本与视觉和声学模态对齐，为多模态情感分析提供了新的基准框架。

当前挑战

FMSA-SC数据集面临的挑战主要集中在多模态情感分析的复杂性和数据构建的难度上。首先，多模态情感分析需要整合文本、视觉和声学模态的情感线索，如何有效融合这些模态并确保情感标注的一致性是一个重大挑战。其次，数据集的构建过程中，视频内容的多样性和情感表达的复杂性增加了标注的难度，尤其是细粒度标注需要高度专业化的知识和技能。此外，数据集的规模和复杂性也带来了存储和计算资源的挑战，如何高效处理和分析这些大规模数据是另一个关键问题。

常用场景

经典使用场景

FMSA-SC数据集的经典使用场景主要集中在多模态情感分析领域，尤其是在股票评论视频的情感分析中。该数据集通过整合文本、视觉和声学三种模态的信息，提供了细粒度的情感标注，使得研究者能够更精确地捕捉和分析股票评论视频中的情感倾向。这种多模态的情感分析方法不仅能够提升情感分析的准确性，还能为金融市场的情感预测提供有力支持。

衍生相关工作

FMSA-SC数据集的发布催生了一系列相关的经典工作，尤其是在多模态情感分析和金融情感预测领域。研究者们基于该数据集开发了多种多模态情感分析模型，并提出了新的细粒度多任务框架。此外，该数据集还激发了对多模态数据融合技术的深入研究，推动了多模态学习在金融领域的应用。这些衍生工作不仅丰富了多模态情感分析的理论体系，也为实际应用提供了技术支持。

数据集最近研究