MisDerdect

github2024-05-06 更新2024-05-31 收录

下载链接：

https://github.com/yzhouli/DDCA-Rumor-Detection

下载链接

链接失效反馈

官方服务：

资源简介：

这些话题通过微博社区管理中心官方网站公开。该中心展示已被微博官方确认为谣言的话题。我们收集了2067个原始话题的信息。其中有1000个谣言话题和1067个非谣言话题。同时，我们根据官方事实对衍生话题进行人工识别。收集了近270,000个强相关衍生话题的帖子，并随机添加了近300,000个无关帖子。全网话题集由它们共同组成。

These topics are publicly available through the official website of the Weibo Community Management Center. The center displays topics that have been officially confirmed as rumors by Weibo. We collected information on 2067 original topics, including 1000 rumor topics and 1067 non-rumor topics. Additionally, we manually identified derivative topics based on official facts. We gathered nearly 270,000 posts from strongly related derivative topics and randomly added nearly 300,000 unrelated posts. The entire network topic set is composed of these elements.

创建时间：

2023-02-02

原始信息汇总

数据集概述

数据集名称

MisDerdect

数据集内容

包含2067个原始话题，其中1000个为谣言话题，1067个为非谣言话题。
收集了近270,000个与谣言强相关的衍生话题帖子。
随机添加了近300,000个与谣言无关的帖子。

数据集来源

数据来源于微博社区管理中心官方网站，该中心展示并官方认定的话题是否为谣言。

数据集更新

持续收集和更新数据集的规模。

数据集版本

下一版本将引入多模态数据，以更真实地再现现实环境。

数据集用途

用于支持论文“Yang Z, Pang Y, Li Q, et al. A model for early rumor detection base on topic-derived domain compensation and multi-user association[J]. Expert Systems with Applications, 2024: 123951.”中的研究。

相关模型

提出了基于图卷积神经网络的早期谣言检测模型（DFCA-GCN），该模型能够在话题数据仅4小时的情况下准确识别谣言。

搜集汇总

数据集介绍

构建方式

MisDerdect数据集的构建基于微博社区管理中心官方网站上公开的谣言话题。研究团队收集了2067个原始话题，其中包括1000个谣言话题和1067个非谣言话题。此外，通过对官方事实的手动识别，进一步收集了与谣言强相关的衍生话题，共计约270,000条帖子，并随机添加了约300,000条无关帖子，形成了涵盖广泛话题的完整数据集。

特点

MisDerdect数据集的显著特点在于其真实性和多样性。数据集不仅包含了官方确认的谣言话题，还通过手动识别衍生话题，确保了数据的丰富性和关联性。此外，随机添加的无关帖子进一步增强了数据集的复杂性和挑战性，使其更贴近真实社交网络环境。

使用方法

MisDerdect数据集可用于谣言检测模型的训练与评估。研究者可以通过提供的链接获取数据集，并结合图卷积神经网络（GCN）等先进算法进行模型开发。数据集的多样性和规模使其适用于多种机器学习任务，尤其是早期谣言检测，为研究者提供了丰富的实验资源。

背景与挑战

背景概述

MisDerdect数据集是由Yang Z, Pang Y, Li Q等人于2024年创建，旨在解决早期谣言检测的核心研究问题。该数据集通过微博社区管理中心的官方网站收集了2067个原始话题，其中包括1000个谣言话题和1067个非谣言话题。此外，研究团队还手动识别了基于官方事实的衍生话题，并收集了近27万条强相关帖子及30万条不相关帖子，构建了一个包含广泛话题的网络数据集。MisDerdect数据集的创建不仅为谣言检测领域提供了丰富的数据资源，还通过引入多模态数据，模拟真实世界环境，进一步推动了该领域的研究进展。

当前挑战

MisDerdect数据集在构建过程中面临多项挑战。首先，谣言检测领域的核心挑战在于如何在数据稀疏的早期阶段准确识别谣言，尤其是在仅有4小时话题数据的情况下。其次，数据集的构建需要大量的人工识别和筛选，以确保衍生话题的准确性和相关性，这增加了数据处理的复杂性和工作量。此外，随着多模态数据的引入，如何有效整合和分析不同类型的数据，以提高检测模型的性能，也是该数据集面临的重要挑战。

常用场景

经典使用场景

MisDerdect数据集在社交媒体谣言检测领域展现了其经典应用场景。通过整合微博社区管理中心的官方谣言识别信息，该数据集包含了2067个原始话题，其中1000个为谣言话题，1067个为非谣言话题。此外，数据集还收集了近270,000条强相关衍生话题的帖子，以及近300,000条无关帖子，形成了全面的网络话题集合。这种结构使得MisDerdect成为研究早期谣言检测的理想数据源，特别是在数据稀疏的情况下，能够有效支持基于图卷积神经网络的谣言检测模型。

解决学术问题

MisDerdect数据集在学术研究中解决了早期谣言检测的关键问题。传统的谣言检测方法往往受限于数据稀疏性，难以在谣言传播的早期阶段进行准确识别。MisDerdect通过引入多用户关联和话题衍生域补偿机制，显著提升了早期谣言检测的准确性。该数据集不仅提供了丰富的谣言和非谣言样本，还通过手动识别衍生话题，确保了数据的高质量和真实性，为学术界提供了一个可靠的研究平台，推动了社交媒体谣言检测技术的发展。

衍生相关工作

MisDerdect数据集的发布催生了一系列相关的经典工作。基于该数据集，研究者们提出了多种改进的谣言检测模型，如基于图卷积神经网络的DFCA-GCN模型，该模型通过多用户关联和话题衍生域补偿机制，显著提升了谣言检测的准确性和效率。此外，MisDerdect的多模态数据扩展计划也激发了研究者对多模态数据融合技术的探索，推动了社交媒体分析领域的技术进步。这些衍生工作不仅丰富了谣言检测的理论体系，也为实际应用提供了强有力的技术支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集