Sina Weibo Misinformation and Social Bots Dataset

Name: Sina Weibo Misinformation and Social Bots Dataset
Creator: 西安交通大学, SGIT AI, 国防科技大学
Published: 2024-08-19 07:43:12
License: 暂无描述

arXiv2024-08-19 更新2024-08-21 收录

下载链接：

http://arxiv.org/abs/2408.09613v1

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集由西安交通大学、SGIT AI和国防科技大学联合创建，专注于新浪微博平台上的虚假信息与社交机器人的交互研究。数据集包含11,393条虚假信息和16,416条无偏真实信息，涉及952,955名用户，其中包括68,040个社交机器人和411,635个真实账户。数据集通过多模态信息结构化收集，包括文本、图片、视频等，旨在分析社交机器人在虚假信息传播中的作用，解决网络信息安全问题。

This dataset was jointly created by Xi'an Jiaotong University, SGIT AI, and the National University of Defense Technology, focusing on research into the interaction between disinformation and social bots on the Sina Weibo platform. The dataset contains 11,393 disinformation posts and 16,416 unbiased real posts, involving a total of 952,955 users, among which 68,040 are social bots and 411,635 are real user accounts. The dataset was collected in a structured manner using multimodal information including text, images, videos, and other content types, with the aim of analyzing the role of social bots in the spread of disinformation and addressing cybersecurity issues.

提供机构：

西安交通大学, SGIT AI, 国防科技大学

创建时间：

2024-08-19

搜集汇总

数据集介绍

构建方式

本研究旨在探索社交媒体平台上社交机器人与虚假信息之间的互动关系。为此，研究人员构建了一个名为Sina Weibo Misinformation and Social Bots Dataset的综合性大型数据集。该数据集包括11,393条虚假信息和16,416条真实信息，以及952,955个相关用户。此外，数据集还包含68,040个社交机器人和411,635个真实账户的标注。为了自动标注账户，研究人员提出了一个可扩展的弱监督框架，并招募了300名标注员进行众包标注。随后，训练了多个专家模型来检测社交机器人，并采用混合专家模型来获得最终的标注结果。

特点

Sina Weibo Misinformation and Social Bots Dataset具有以下特点：1) 该数据集是目前已知包含虚假信息和社交机器人标注的最大数据集，包含多模态信息，包括文章内容、评论、转发消息、图像和视频；2) 数据集中包含952,955个参与新闻讨论的用户，涵盖了68,040个标注的社交机器人和411,635个真实账户；3) 研究人员提出了一个可扩展的弱监督框架来标注账户，并在99,774个账户上进行训练，提供了一个强大的标注工具。

使用方法

使用Sina Weibo Misinformation and Social Bots Dataset的方法如下：1) 数据集可用于研究和开发虚假信息检测模型，通过分析多模态信息和用户互动来提高检测性能；2) 数据集可用于研究社交机器人在虚假信息传播中的作用，包括放大回音室、操纵公众情绪和逆转公众立场；3) 数据集可用于开发社交机器人检测模型，通过分析账户特征和用户发布的内容来识别社交机器人。

背景与挑战

背景概述

随着社交媒体平台的兴起，信息传播速度远超传统媒体，使得社交媒体成为传播虚假信息的理想媒介。自动化账户，即社交机器人，在虚假信息传播中发挥着重要作用。本文提出一个全面且大规模的虚假信息数据集，包含11,393条虚假信息和16,416条无偏见真实信息，以及952,955个相关用户。本文还提出了一种可扩展的弱监督方法来标注社交机器人，获得了68,040个社交机器人和411,635个真实账户。据我们所知，这是目前最大的包含虚假信息和社交机器人的数据集。本文在数据集上进行了全面的实验和分析。结果表明，社交机器人在虚假信息传播中发挥着核心作用，参与新闻讨论以放大回声室，操纵公众情绪，并扭转公众立场。

当前挑战

社交机器人和虚假信息是危害在线安全的两个主要因素，它们会相互协作来放大其影响。为了应对这一挑战，研究人员已经开发了多种方法来检测虚假信息和社交机器人。虚假信息检测器关注新闻内容，如文本、图像或视频，以及外部信息，如评论、新闻环境和相关证据。社交机器人检测器则采用特征工程、自然语言处理技术和图神经网络等技术来检测社交机器人。然而，相对较少的研究关注虚假信息和社交机器人之间的相互作用。本文旨在填补这一空白，研究社交机器人和虚假信息之间的相互作用。

常用场景

经典使用场景

该数据集主要用于研究社交媒体平台上的虚假信息和社交机器人之间的相互作用。它提供了大量关于虚假信息和社交机器人活动的大规模数据集，包括11,393条虚假信息和16,416条真实信息，以及952,955个相关用户的数据。此外，数据集还包括68,040个社交机器人账户和411,635个真实账户的注释信息，为研究虚假信息和社交机器人之间的相互作用提供了丰富的数据基础。

解决学术问题

该数据集的提出填补了现有研究的空白，它首次同时包含了虚假信息和社交机器人的注释信息，为研究虚假信息和社交机器人之间的相互作用提供了重要的数据支持。此外，该数据集还提供了关于用户互动和社交媒体平台算法对虚假信息传播的影响的深入分析，为理解虚假信息的传播机制提供了新的视角。

衍生相关工作

基于该数据集，可以进一步研究社交机器人在不同类型虚假信息传播中的作用，以及不同类型虚假信息对公众舆论的影响。此外，还可以研究社交媒体平台算法对虚假信息传播的影响，以及如何优化算法以减少虚假信息的传播。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集