Multi-modal Stance Detection

github2024-06-06 更新2024-06-08 收录

下载链接：

https://github.com/Leon-Francis/Multi-Modal-Stance-Detection

下载链接

链接失效反馈

官方服务：

资源简介：

本仓库开放了我们在ACL2024发表的论文「多模态立场检测：新数据集和模型」中的代码和数据。数据集包括了Twitter的Post IDs和我们的标注结果，这些数据仅供非商业研究使用。

This repository releases the code and data from our paper 'Multimodal Stance Detection: New Dataset and Model' published at ACL2024. The dataset includes Twitter Post IDs and our annotation results, which are provided solely for non-commercial research purposes.

创建时间：

2024-05-17

原始信息汇总

数据集概述

数据集名称

Multi-modal Stance Detection

数据集来源

本数据集来源于ACL2024的论文「Multi-modal Stance Detection: New Datasets and Model」。

数据集内容

由于Twitter的开发者协议和隐私政策限制，本数据集仅公开了Post IDs和用户ID，以及相应的标注结果。数据集主要包含Twitter的Post IDs和相关的标注信息。

数据集使用

数据集仅供非商业研究使用。

数据集补充内容

用户需申请Twitter开发者账号，并使用如Tweepy或twarc等工具，根据Post IDs补充具体内容。

数据集详细描述

更多数据集详情，请参阅数据描述。

数据集引用

bibtex @misc{liang2024multimodal, title={Multi-modal Stance Detection: New Datasets and Model}, author={Bin Liang and Ang Li and Jingqian Zhao and Lin Gui and Min Yang and Yue Yu and Kam-Fai Wong and Ruifeng Xu}, year={2024}, eprint={2402.14298}, archivePrefix={arXiv}, primaryClass={cs.CL} }

数据集联系方式

angli@stu.hit.edu.cn

搜集汇总

数据集介绍

构建方式

在构建多模态立场检测数据集时，研究团队遵循了Twitter的开发者协议和隐私政策，仅公开了推文的ID和用户的ID，并提供了相应的标注结果。这种做法符合当前Twitter数据研究的主流实践，确保了数据的合法性和隐私保护。通过使用Twitter提供的工具和库，如Tweepy和twarc，研究人员可以基于这些ID补充推文的具体内容，从而完整地构建数据集。

特点

该数据集的显著特点在于其多模态性质，结合了文本和视觉信息，为立场检测提供了更丰富的上下文。此外，数据集的构建严格遵守Twitter的隐私政策，确保了数据的安全性和合法性。通过公开推文ID和标注结果，数据集不仅支持非商业研究用途，还为后续研究提供了灵活的数据补充途径。

使用方法

使用该数据集时，用户首先需要下载所需的模型权重，并根据配置文件进行相应的设置。通过运行提供的脚本，如`run_baseline.sh`或`run_tmpt.sh`，用户可以选择不同的训练数据集、训练模式、模型框架和运行模式。例如，用户可以选择在mtse数据集上使用CLIP模型进行目标内立场检测，或使用TMPT模型在mwtwt数据集上进行零样本立场检测。

背景与挑战

背景概述

多模态立场检测（Multi-modal Stance Detection）数据集由Bin Liang等研究人员于2024年创建，其核心研究问题在于通过结合文本和视觉信息，提升社交媒体中立场检测的准确性。该数据集的构建旨在解决传统单一模态立场检测方法的局限性，特别是在处理复杂和多模态信息时。该研究在ACL2024的findings长论文中发表，标志着多模态立场检测领域的重要进展，对社交媒体分析和自然语言处理领域产生了深远影响。

当前挑战

多模态立场检测数据集在构建过程中面临的主要挑战包括：首先，由于Twitter的隐私政策限制，数据集仅能公开推文的ID和标注结果，这要求研究人员使用特定的工具（如Tweepy和twarc）进行数据补充，增加了数据获取的复杂性。其次，多模态信息的融合与处理，特别是在文本和视觉信息之间的有效结合，是该数据集面临的技术难题。此外，如何在零样本学习（zero-shot learning）和目标立场检测（in-target stance detection）中实现高效的多模态模型训练，也是该数据集需要解决的重要问题。

常用场景

经典使用场景

在多模态立场检测领域，Multi-modal Stance Detection数据集的经典使用场景主要集中在跨模态信息融合与立场分类任务上。研究者们通过结合文本、图像等多模态数据，训练模型以准确识别和分类社交媒体中的立场表达。例如，利用该数据集，研究者可以开发出能够同时分析文本内容和图像信息的模型，从而在复杂的社交媒体环境中更精准地捕捉用户的立场倾向。

解决学术问题

Multi-modal Stance Detection数据集的引入，有效解决了多模态信息处理中的立场检测难题。传统的立场检测方法往往依赖单一模态数据，难以捕捉到多模态信息间的复杂关联。该数据集通过提供丰富的多模态标注数据，使得研究者能够探索和验证多模态融合模型在立场检测中的应用，推动了多模态自然语言处理领域的发展，具有重要的学术研究价值。

衍生相关工作

基于Multi-modal Stance Detection数据集，研究者们已开展了一系列相关工作。例如，有研究通过该数据集验证了多模态融合模型在立场检测任务中的优越性，提出了新的模型架构和训练方法。此外，还有研究利用该数据集进行跨模态信息检索和生成任务，进一步拓展了多模态自然语言处理的应用边界。这些衍生工作不仅丰富了多模态立场检测的理论体系，也为实际应用提供了更多可能性。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集