多模态谣言数据集

github2024-12-12 更新2024-12-13 收录

下载链接：

https://github.com/Lin-A1/MultimodalRumors

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含谣言的核心文本信息、与谣言文本相关的图像数据以及通过PaddleOCR从配图中提取的文字信息，用于多模态谣言二分类模型的训练和测试。

This dataset contains core textual information of rumors, image data associated with the corresponding rumor texts, as well as text information extracted from the accompanying images via PaddleOCR, and is used for the training and testing of multimodal rumor binary classification models.

创建时间：

2024-12-05

原始信息汇总

多模态谣言二分类模型数据集

数据集概述

本数据集用于多模态谣言二分类模型的训练与评估，包含以下模态：

谣言文本：谣言的核心文本信息。
配图：与谣言文本相关的图像数据。
OCR 文本：通过 PaddleOCR 从配图中提取的文字信息。

数据集结构

数据集应整合成指定格式，并放入 data 目录，确保文件结构符合预期：

图像数据整理到 /data/images 中。
表格整理成 train.xlsx 和 test.xlsx 置于 /data 中。

数据集使用

数据准备：将数据集整合成指定格式后放入 data 目录。
训练模型：进入 train/scheme 目录，运行 main.ipynb 完成训练。
模型评估：通过保存的 best_model.pth 进行推理测试。

数据集特点

结合文本、图像和 OCR 文本进行多模态特征融合。
通过交叉注意力机制融合插图与 OCR 文本特征。
使用 XLNet 处理谣言文本和 OCR 提取的插图文本，使用 ResNet50 提取图像特征。

数据集性能

F1 Score: 0.9554
排名: 第 1 名

搜集汇总

数据集介绍

构建方式

多模态谣言数据集的构建方式独具匠心，其核心在于整合了谣言文本、配图以及通过PaddleOCR技术从配图中提取的OCR文本信息。这种多模态数据的融合，不仅丰富了数据的信息维度，还通过模态衍生技术，如图像OCR提取，进一步增强了数据的多样性和复杂性，为后续的特征融合与模型训练奠定了坚实的基础。

特点

该数据集的显著特点在于其多模态数据的深度融合与处理。通过结合文本、图像和OCR文本，数据集不仅涵盖了谣言的文字信息，还通过图像和OCR技术提取了额外的视觉和文本特征。这种多模态的特征融合策略，使得模型能够更全面地理解和分类谣言内容，从而在二分类任务中表现出卓越的性能，F1 Score高达0.9554。

使用方法

使用该数据集时，首先需将数据整理成指定格式，包括将图像数据放置在`/data/images`目录下，并将表格数据整理为`train.xlsx`和`test.xlsx`文件。随后，进入`train/scheme`目录，运行`main.ipynb`进行模型训练。训练完成后，可通过保存的`best_model.pth`文件进行模型评估和推理测试，以实现对谣言的精准分类。

背景与挑战

背景概述

多模态谣言数据集是由广西公共数据开放创新应用大赛于2024年推出的一个创新性数据集，旨在通过结合文本、图像和OCR提取的文字信息，解决谣言检测这一重要的社会问题。该数据集的核心研究问题是如何有效融合多模态信息，以提高谣言分类的准确性。主要研究人员通过引入模态衍生技术，特别是图像OCR技术，成功地将图像中的文字信息与谣言文本结合，显著提升了模型的分类性能。该数据集的推出不仅为谣言检测领域提供了新的研究方向，也为多模态数据处理技术的发展提供了宝贵的实践经验。

当前挑战

多模态谣言数据集在构建和应用过程中面临多项挑战。首先，如何有效融合文本、图像和OCR提取的文字信息，以确保模型能够充分利用多模态数据的优势，是一个关键问题。其次，图像OCR技术的准确性直接影响数据集的质量，因此需要高精度的OCR工具来提取图像中的文字信息。此外，多模态数据的异构性使得特征提取和融合变得复杂，需要设计高效的融合策略。最后，数据集的规模和多样性也是一大挑战，确保数据集能够覆盖广泛的谣言类型和场景，以提高模型的泛化能力。

常用场景

经典使用场景

多模态谣言数据集的经典使用场景主要集中在社交媒体和新闻平台上的谣言检测与分类任务。通过结合谣言文本、配图以及从配图提取的OCR文本，该数据集能够支持多模态信息的融合与分析，从而提升谣言检测的准确性和鲁棒性。典型的应用包括自动识别社交媒体上的虚假信息，帮助平台快速响应和处理谣言传播，保障信息的真实性和公共安全。

衍生相关工作

基于多模态谣言数据集，研究者们开发了多种多模态融合模型，如结合XLNet和ResNet50的深度学习架构，以及引入交叉注意力机制的特征融合策略。这些工作不仅在谣言检测任务中取得了显著的性能提升，还为多模态学习领域的研究提供了新的思路和方法。相关研究成果已在多个学术会议和期刊上发表，推动了多模态学习技术的广泛应用和深入研究。

数据集最近研究