five

MmMtCSD|立场检测数据集|多模态数据数据集

收藏
arXiv2024-09-01 更新2024-09-06 收录
立场检测
多模态数据
下载链接:
https://github.com/nfq729/MmMtCSD
下载链接
链接失效反馈
资源简介:
MmMtCSD数据集由深圳技术大学创建,旨在解决多模态多轮对话立场检测问题。该数据集包含21,340条标注数据,涵盖文本和图像两种模态,主要针对“特斯拉”和“比特币”两个目标进行立场标注。数据集通过Reddit平台收集,经过严格的前处理和多轮专家标注,确保数据的高质量和标注的一致性。该数据集的应用领域主要集中在社交媒体分析和立场检测研究,旨在通过多模态信息提升立场检测的准确性。
提供机构:
深圳技术大学
创建时间:
2024-09-01
AI搜集汇总
数据集介绍
main_image_url
构建方式
MmMtCSD数据集的构建过程包括数据收集、预处理、标注和质量保证。首先,通过Reddit平台收集了包含文本和图像的多模态对话数据。在数据预处理阶段,通过人工审核确保数据与目标的相关性,并设置了每篇帖子至少100条评论的门槛,以及适当的文本长度限制。数据标注阶段,招募了具有自然语言处理背景的研究人员对数据进行标注,并采用了多数投票的方式解决标注不一致的问题。最终,数据集被分为训练集、验证集和测试集,比例为70/15/15。
特点
MmMtCSD数据集具有以下特点:首先,数据集包含多模态内容,其中66%的对话内容与图像内容相关,突出了文本和多媒体数据之间的紧密联系。其次,数据集具有挑战性,因为立场相关的文本内容需要从多模态上下文中推断,且立场确定高度依赖于上下文线索。此外,数据集涵盖了多种对话深度,为研究多轮对话立场检测提供了丰富的数据基础。
使用方法
使用MmMtCSD数据集的方法包括以下几个步骤:首先,需要准备一个多模态大型语言模型立场检测框架(MLLM-SD),该框架包括文本编码器、视觉编码器和多模态融合模块。其次,使用文本编码器对输入的对话历史信息进行编码,并使用视觉编码器对输入的图像进行编码。然后,在多模态融合模块中,使用低秩自适应(LoRA)方法对LLaMA模型进行微调,以整合不同模态的信息。最后,将LLM的输出与相应的标签进行匹配,从而实现多模态立场检测。
背景与挑战
背景概述
立场检测是一项旨在使用社交媒体数据识别公众对特定目标态度的重要而具有挑战性的任务。随着包含文本、图像等多种模态社交媒体内容的激增,多模态立场检测(MSD)已成为一个关键的研究领域。然而,现有的MSD研究主要集中在个体文本-图像对内部的立场建模,忽视了社交媒体上自然发生的多方对话语境。这一局限性源于缺乏能够真实捕捉此类对话场景的数据集,阻碍了会话MSD的进展。为了解决这个问题,我们引入了一个新的多模态多轮对话立场检测数据集(称为MmMtCSD)。为了从这个具有挑战性的数据集中提取立场,我们提出了一种新颖的多模态大型语言模型立场检测框架(MLLM-SD),该框架从文本和视觉模态中学习联合立场表示。在MmMtCSD上的实验表明,我们提出的MLLM-SD方法在多模态立场检测方面达到了最先进的性能。我们相信,MmMtCSD将有助于推进立场检测研究的实际应用。
当前挑战
多模态多轮对话立场检测数据集MmMtCSD的挑战包括:1) 立场相关内容在文本中从多模态上下文中可推断;2) 立场确定严重依赖于上下文线索。此外,MmMtCSD的构建过程中也遇到了挑战,例如如何收集真实的多模态对话数据,如何进行高质量的数据预处理,以及如何进行准确的数据标注等。这些挑战都需要研究人员付出大量的努力和时间来克服。
常用场景
经典使用场景
在多模态多轮对话立场检测领域,MmMtCSD数据集被广泛应用于训练和评估立场检测模型。该数据集包含了丰富的文本和图像数据,能够帮助模型学习如何在多轮对话中理解用户的立场。例如,通过分析用户在讨论特定话题时的多轮对话内容,模型可以识别用户对某个特定目标的立场,如支持、反对或中立。这种能力在社交媒体分析、网络挖掘和内容分析等领域具有重要应用价值。
实际应用
MmMtCSD数据集在实际应用场景中具有广泛的应用价值。例如,在社交媒体分析中,该数据集可以用于分析用户在讨论特定话题时的立场,从而帮助企业和机构了解公众意见和情绪。在网络挖掘中,该数据集可以用于识别和分类具有特定立场的用户,从而帮助研究人员更好地理解网络社区的结构和动态。在内容分析中,该数据集可以用于分析用户在讨论特定话题时的立场,从而帮助编辑和记者更好地理解公众意见和情绪。
衍生相关工作
MmMtCSD数据集的发布推动了多模态立场检测领域的研究。基于该数据集,研究人员提出了多种有效的模型和方法,如MLLM-SD框架,该框架通过结合文本和图像信息,实现了对多轮对话中用户立场的准确识别。此外,MmMtCSD数据集的发布也促进了相关领域的研究,如多模态情感分析和多模态事件检测等。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

Breast Cancer Dataset

该项目专注于清理和转换一个乳腺癌数据集,该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术(如分类、编码和二值化)来创建一个可以由数据科学团队用于未来分析的精炼数据集。

github 收录

GME Data

关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。

github 收录

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录