five

Multimodal Stance Generation Dataset (StanceGen2024)|多模态立场检测数据集|政治话语分析数据集

收藏
arXiv2025-04-04 更新2025-04-08 收录
多模态立场检测
政治话语分析
下载链接:
https://anonymous.4open.science/r/StanceGen-BE9D
下载链接
链接失效反馈
资源简介:
StanceGen2024是一个专门为政治话语中的多模态立场可控文本生成而设计的新型数据集。由北京邮电大学的研究团队创建,该数据集汇集了2024年美国总统选举期间候选人的推文和用户评论,包含丰富的文本、图像以及视频等多模态信息。这些数据不仅涵盖了政治立场表达,还包括了与推文相关的视觉内容,为研究多模态政治内容如何影响立场表达提供了真实而多样的基础。StanceGen2024旨在推动多模态立场检测、政治话语分析以及情感分析等多种任务的研究。
提供机构:
北京邮电大学
创建时间:
2025-04-04
AI搜集汇总
数据集介绍
main_image_url
构建方式
在数字互联时代,政治话语的多模态表达已成为社会舆论分析的重要维度。StanceGen2024数据集通过Twitter Streaming API系统采集了2024年美国总统选举期间哈里斯与特朗普两位候选人的官方推文及用户评论,构建过程严格遵循多模态数据同步原则:采用时间戳对齐技术确保文本、图像和视频的时序一致性,通过预筛选保留包含视觉元素的英文推文(10-128词范围),并运用三级标注体系(大模型粗标注-人工细校准-专家仲裁)完成立场标注。数据预处理阶段创新性地将多图推文拆分为独立样本,视频/GIF仅保留首帧以优化存储效率。
特点
作为首个面向政治话语多模态立场生成的数据集,StanceGen2024包含1,039条候选推文和25,025条用户评论,其显著特征体现在三方面:多模态耦合性(26.6%评论含图像、8.9%含视频),政治立场极性鲜明(哈里斯推文反对评论占86.8%,特朗普推文反对评论59.1%),以及细粒度标注体系(包含讽刺、直接表达等六种评论风格)。数据集特别设计了视觉-文本跨模态注意力机制所需的元数据,如候选人的竞选肖像与政策文本的语义关联标注,为研究视觉政治符号对立场表达的影响提供了独特视角。
使用方法
该数据集支持端到端的多模态立场生成任务,典型使用流程包含三个层次:基础层可加载CLIP视觉编码器和文本编码器提取跨模态特征;中间层通过任务敏感注意力(TSA)机制实现视觉-文本特征加权融合,其中视觉目标提示向量PV可引导模型聚焦政治人物的特定视觉符号;应用层则结合立场引导信号微调LLaVA等大模型,通过LoRA技术适配社交媒体评论风格。研究人员可通过调整模态权重系数探索视觉政治符号对立场表达的影响强度,或利用CMSS指标量化生成文本与输入图像的语义一致性。
背景与挑战
背景概述
Multimodal Stance Generation Dataset (StanceGen2024)由北京邮电大学的研究团队于2024年创建,旨在解决政治话语中立场驱动的多模态可控文本生成问题。该数据集聚焦2024年美国总统大选,整合了候选人的社交媒体帖子(包含文本、图像和视频)及用户评论,并标注了立场信息。作为首个专为政治话语中多模态立场控制生成设计的数据集,StanceGen2024填补了传统纯文本立场检测数据集的空白,为研究多模态内容如何影响立场表达提供了真实且多样化的基础。其创新性在于融合了多模态信息与立场标注,推动了生成模型在政治传播、舆论引导等领域的应用发展。
当前挑战
StanceGen2024面临的挑战主要体现在两方面:领域问题方面,政治话语中的立场表达具有高度复杂性和主观性,如何准确捕捉文本与视觉内容之间的语义关联并生成立场一致的响应是一大难点;数据集构建方面,多模态数据的时间同步、立场标注的一致性(平均Cohen's Kappa为0.719)以及政治内容的敏感性处理均需精细设计。此外,视频帧提取、跨模态特征融合等技术挑战也增加了数据集构建的复杂度。这些挑战使得该领域的研究需要在保持生成内容流畅性的同时,确保立场控制的精确性和多模态语义的一致性。
常用场景
经典使用场景
在政治话语分析领域,Multimodal Stance Generation Dataset (StanceGen2024) 为研究者提供了一个独特的资源,用于探索多模态内容如何影响立场表达。该数据集结合了文本、图像和视频,并附有立场标注,特别适用于研究社交媒体上政治候选人与选民之间的互动。通过分析候选人的推文及其用户的评论,研究者可以深入理解多模态内容在塑造政治立场表达中的作用。
实际应用
在实际应用中,StanceGen2024 可用于开发能够生成立场一致的多模态内容的AI系统。例如,政治竞选团队可以利用该数据集训练模型,自动生成支持特定候选人的社交媒体评论。此外,新闻机构可以使用该数据集来分析公众对政治事件的多模态反应,从而更好地理解公众情绪和立场。
衍生相关工作
StanceGen2024 的推出催生了一系列相关研究,特别是在多模态立场生成和检测领域。例如,研究者们基于该数据集提出了多种多模态特征融合方法,以提高生成内容的立场一致性和语义连贯性。此外,该数据集还被用于探索视觉和文本信息在立场表达中的相对重要性,推动了多模态自然语言处理技术的发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

中国空气质量数据集(2014-2020年)

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心 收录

HUSTgearbox

This reposotory release a gearbox failure dataset, which can support intelliegnt fault diagnosis research

github 收录

中国知识产权局专利数据库

该数据集包含了中国知识产权局发布的专利信息,涵盖了专利的申请、授权、转让等详细记录。数据内容包括专利号、申请人、发明人、申请日期、授权日期、专利摘要等。

www.cnipa.gov.cn 收录