five

Multi-modal Stance Detection|多模态立场检测数据集|社交媒体分析数据集

收藏
github2024-06-06 更新2024-06-08 收录
多模态立场检测
社交媒体分析
下载链接:
https://github.com/Leon-Francis/Multi-Modal-Stance-Detection
下载链接
链接失效反馈
资源简介:
本仓库开放了我们在ACL2024发表的论文「多模态立场检测:新数据集和模型」中的代码和数据。数据集包括了Twitter的Post IDs和我们的标注结果,这些数据仅供非商业研究使用。

This repository releases the code and data from our paper 'Multimodal Stance Detection: New Dataset and Model' published at ACL2024. The dataset includes Twitter Post IDs and our annotation results, which are provided solely for non-commercial research purposes.
创建时间:
2024-05-17
原始信息汇总

数据集概述

数据集名称

Multi-modal Stance Detection

数据集来源

本数据集来源于ACL2024的论文「Multi-modal Stance Detection: New Datasets and Model」。

数据集内容

由于Twitter的开发者协议和隐私政策限制,本数据集仅公开了Post IDs和用户ID,以及相应的标注结果。数据集主要包含Twitter的Post IDs和相关的标注信息。

数据集使用

数据集仅供非商业研究使用。

数据集补充内容

用户需申请Twitter开发者账号,并使用如Tweepy或twarc等工具,根据Post IDs补充具体内容。

数据集详细描述

更多数据集详情,请参阅数据描述

数据集引用

bibtex @misc{liang2024multimodal, title={Multi-modal Stance Detection: New Datasets and Model}, author={Bin Liang and Ang Li and Jingqian Zhao and Lin Gui and Min Yang and Yue Yu and Kam-Fai Wong and Ruifeng Xu}, year={2024}, eprint={2402.14298}, archivePrefix={arXiv}, primaryClass={cs.CL} }

数据集联系方式

angli@stu.hit.edu.cn

AI搜集汇总
数据集介绍
main_image_url
构建方式
在构建多模态立场检测数据集时,研究团队遵循了Twitter的开发者协议和隐私政策,仅公开了推文的ID和用户的ID,并提供了相应的标注结果。这种做法符合当前Twitter数据研究的主流实践,确保了数据的合法性和隐私保护。通过使用Twitter提供的工具和库,如Tweepy和twarc,研究人员可以基于这些ID补充推文的具体内容,从而完整地构建数据集。
特点
该数据集的显著特点在于其多模态性质,结合了文本和视觉信息,为立场检测提供了更丰富的上下文。此外,数据集的构建严格遵守Twitter的隐私政策,确保了数据的安全性和合法性。通过公开推文ID和标注结果,数据集不仅支持非商业研究用途,还为后续研究提供了灵活的数据补充途径。
使用方法
使用该数据集时,用户首先需要下载所需的模型权重,并根据配置文件进行相应的设置。通过运行提供的脚本,如`run_baseline.sh`或`run_tmpt.sh`,用户可以选择不同的训练数据集、训练模式、模型框架和运行模式。例如,用户可以选择在mtse数据集上使用CLIP模型进行目标内立场检测,或使用TMPT模型在mwtwt数据集上进行零样本立场检测。
背景与挑战
背景概述
多模态立场检测(Multi-modal Stance Detection)数据集由Bin Liang等研究人员于2024年创建,其核心研究问题在于通过结合文本和视觉信息,提升社交媒体中立场检测的准确性。该数据集的构建旨在解决传统单一模态立场检测方法的局限性,特别是在处理复杂和多模态信息时。该研究在ACL2024的findings长论文中发表,标志着多模态立场检测领域的重要进展,对社交媒体分析和自然语言处理领域产生了深远影响。
当前挑战
多模态立场检测数据集在构建过程中面临的主要挑战包括:首先,由于Twitter的隐私政策限制,数据集仅能公开推文的ID和标注结果,这要求研究人员使用特定的工具(如Tweepy和twarc)进行数据补充,增加了数据获取的复杂性。其次,多模态信息的融合与处理,特别是在文本和视觉信息之间的有效结合,是该数据集面临的技术难题。此外,如何在零样本学习(zero-shot learning)和目标立场检测(in-target stance detection)中实现高效的多模态模型训练,也是该数据集需要解决的重要问题。
常用场景
经典使用场景
在多模态立场检测领域,Multi-modal Stance Detection数据集的经典使用场景主要集中在跨模态信息融合与立场分类任务上。研究者们通过结合文本、图像等多模态数据,训练模型以准确识别和分类社交媒体中的立场表达。例如,利用该数据集,研究者可以开发出能够同时分析文本内容和图像信息的模型,从而在复杂的社交媒体环境中更精准地捕捉用户的立场倾向。
解决学术问题
Multi-modal Stance Detection数据集的引入,有效解决了多模态信息处理中的立场检测难题。传统的立场检测方法往往依赖单一模态数据,难以捕捉到多模态信息间的复杂关联。该数据集通过提供丰富的多模态标注数据,使得研究者能够探索和验证多模态融合模型在立场检测中的应用,推动了多模态自然语言处理领域的发展,具有重要的学术研究价值。
衍生相关工作
基于Multi-modal Stance Detection数据集,研究者们已开展了一系列相关工作。例如,有研究通过该数据集验证了多模态融合模型在立场检测任务中的优越性,提出了新的模型架构和训练方法。此外,还有研究利用该数据集进行跨模态信息检索和生成任务,进一步拓展了多模态自然语言处理的应用边界。这些衍生工作不仅丰富了多模态立场检测的理论体系,也为实际应用提供了更多可能性。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录

Breast Cancer Dataset

该项目专注于清理和转换一个乳腺癌数据集,该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术(如分类、编码和二值化)来创建一个可以由数据科学团队用于未来分析的精炼数据集。

github 收录

Breast-Caner-Detection Dataset

该数据集包含约5000张用于训练和验证的标记乳房X光图像,以及约1800张未标记的测试图像。所有图像均为(224,224,3)格式,标签从Density1到Density4,表示乳房密度的增加,并分为良性或恶性。

github 收录