five

多模态谣言数据集|多模态数据数据集|谣言检测数据集

收藏
github2024-12-12 更新2024-12-13 收录
多模态数据
谣言检测
下载链接:
https://github.com/Lin-A1/MultimodalRumors
下载链接
链接失效反馈
资源简介:
该数据集包含谣言的核心文本信息、与谣言文本相关的图像数据以及通过PaddleOCR从配图中提取的文字信息,用于多模态谣言二分类模型的训练和测试。
创建时间:
2024-12-05
原始信息汇总

多模态谣言二分类模型数据集

数据集概述

本数据集用于多模态谣言二分类模型的训练与评估,包含以下模态:

  1. 谣言文本:谣言的核心文本信息。
  2. 配图:与谣言文本相关的图像数据。
  3. OCR 文本:通过 PaddleOCR 从配图中提取的文字信息。

数据集结构

数据集应整合成指定格式,并放入 data 目录,确保文件结构符合预期:

  • 图像数据整理到 /data/images 中。
  • 表格整理成 train.xlsxtest.xlsx 置于 /data 中。

数据集使用

  1. 数据准备:将数据集整合成指定格式后放入 data 目录。
  2. 训练模型:进入 train/scheme 目录,运行 main.ipynb 完成训练。
  3. 模型评估:通过保存的 best_model.pth 进行推理测试。

数据集特点

  • 结合文本、图像和 OCR 文本进行多模态特征融合。
  • 通过交叉注意力机制融合插图与 OCR 文本特征。
  • 使用 XLNet 处理谣言文本和 OCR 提取的插图文本,使用 ResNet50 提取图像特征。

数据集性能

  • F1 Score: 0.9554
  • 排名: 第 1 名
AI搜集汇总
数据集介绍
main_image_url
构建方式
多模态谣言数据集的构建方式独具匠心,其核心在于整合了谣言文本、配图以及通过PaddleOCR技术从配图中提取的OCR文本信息。这种多模态数据的融合,不仅丰富了数据的信息维度,还通过模态衍生技术,如图像OCR提取,进一步增强了数据的多样性和复杂性,为后续的特征融合与模型训练奠定了坚实的基础。
特点
该数据集的显著特点在于其多模态数据的深度融合与处理。通过结合文本、图像和OCR文本,数据集不仅涵盖了谣言的文字信息,还通过图像和OCR技术提取了额外的视觉和文本特征。这种多模态的特征融合策略,使得模型能够更全面地理解和分类谣言内容,从而在二分类任务中表现出卓越的性能,F1 Score高达0.9554。
使用方法
使用该数据集时,首先需将数据整理成指定格式,包括将图像数据放置在`/data/images`目录下,并将表格数据整理为`train.xlsx`和`test.xlsx`文件。随后,进入`train/scheme`目录,运行`main.ipynb`进行模型训练。训练完成后,可通过保存的`best_model.pth`文件进行模型评估和推理测试,以实现对谣言的精准分类。
背景与挑战
背景概述
多模态谣言数据集是由广西公共数据开放创新应用大赛于2024年推出的一个创新性数据集,旨在通过结合文本、图像和OCR提取的文字信息,解决谣言检测这一重要的社会问题。该数据集的核心研究问题是如何有效融合多模态信息,以提高谣言分类的准确性。主要研究人员通过引入模态衍生技术,特别是图像OCR技术,成功地将图像中的文字信息与谣言文本结合,显著提升了模型的分类性能。该数据集的推出不仅为谣言检测领域提供了新的研究方向,也为多模态数据处理技术的发展提供了宝贵的实践经验。
当前挑战
多模态谣言数据集在构建和应用过程中面临多项挑战。首先,如何有效融合文本、图像和OCR提取的文字信息,以确保模型能够充分利用多模态数据的优势,是一个关键问题。其次,图像OCR技术的准确性直接影响数据集的质量,因此需要高精度的OCR工具来提取图像中的文字信息。此外,多模态数据的异构性使得特征提取和融合变得复杂,需要设计高效的融合策略。最后,数据集的规模和多样性也是一大挑战,确保数据集能够覆盖广泛的谣言类型和场景,以提高模型的泛化能力。
常用场景
经典使用场景
多模态谣言数据集的经典使用场景主要集中在社交媒体和新闻平台上的谣言检测与分类任务。通过结合谣言文本、配图以及从配图提取的OCR文本,该数据集能够支持多模态信息的融合与分析,从而提升谣言检测的准确性和鲁棒性。典型的应用包括自动识别社交媒体上的虚假信息,帮助平台快速响应和处理谣言传播,保障信息的真实性和公共安全。
衍生相关工作
基于多模态谣言数据集,研究者们开发了多种多模态融合模型,如结合XLNet和ResNet50的深度学习架构,以及引入交叉注意力机制的特征融合策略。这些工作不仅在谣言检测任务中取得了显著的性能提升,还为多模态学习领域的研究提供了新的思路和方法。相关研究成果已在多个学术会议和期刊上发表,推动了多模态学习技术的广泛应用和深入研究。
数据集最近研究
最新研究方向
在谣言检测领域,多模态谣言数据集的最新研究方向主要集中在模态间的深度融合与特征提取优化上。通过结合文本、图像以及OCR提取的文字信息,研究者们致力于开发更为精准的二分类模型。例如,本数据集采用了XLNet和ResNet50分别处理文本和图像模态,并通过交叉注意力机制实现模态间的特征融合,显著提升了模型的分类性能。这种多模态融合策略不仅在2024年广西公共数据开放创新应用大赛中取得了优异成绩,也为未来谣言检测技术的进一步发展提供了新的思路和方法。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

CatMeows

该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。

huggingface 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

OpenSonarDatasets

OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。

github 收录

RadDet

RadDet是一个包含11种雷达类别的数据集,包括6种新的低概率干扰(LPI)多相码(P1, P2, P3, P4, Px, Zadoff-Chu)和一种新的宽带调频连续波(FMCW)。数据集覆盖500 MHz频段,包含40,000个雷达帧,分为训练集、验证集和测试集。数据集在两种不同的雷达环境中提供:稀疏数据集(RadDet-1T)和密集数据集(RadDet-9T)。

github 收录

China Health and Nutrition Survey (CHNS)

China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。

www.cpc.unc.edu 收录