five

Sina Weibo Misinformation and Social Bots Dataset|社交媒体分析数据集|信息安全数据集

收藏
arXiv2024-08-19 更新2024-08-21 收录
社交媒体分析
信息安全
下载链接:
http://arxiv.org/abs/2408.09613v1
下载链接
链接失效反馈
资源简介:
本数据集由西安交通大学、SGIT AI和国防科技大学联合创建,专注于新浪微博平台上的虚假信息与社交机器人的交互研究。数据集包含11,393条虚假信息和16,416条无偏真实信息,涉及952,955名用户,其中包括68,040个社交机器人和411,635个真实账户。数据集通过多模态信息结构化收集,包括文本、图片、视频等,旨在分析社交机器人在虚假信息传播中的作用,解决网络信息安全问题。
提供机构:
西安交通大学, SGIT AI, 国防科技大学
创建时间:
2024-08-19
AI搜集汇总
数据集介绍
main_image_url
构建方式
本研究旨在探索社交媒体平台上社交机器人与虚假信息之间的互动关系。为此,研究人员构建了一个名为Sina Weibo Misinformation and Social Bots Dataset的综合性大型数据集。该数据集包括11,393条虚假信息和16,416条真实信息,以及952,955个相关用户。此外,数据集还包含68,040个社交机器人和411,635个真实账户的标注。为了自动标注账户,研究人员提出了一个可扩展的弱监督框架,并招募了300名标注员进行众包标注。随后,训练了多个专家模型来检测社交机器人,并采用混合专家模型来获得最终的标注结果。
特点
Sina Weibo Misinformation and Social Bots Dataset具有以下特点:1) 该数据集是目前已知包含虚假信息和社交机器人标注的最大数据集,包含多模态信息,包括文章内容、评论、转发消息、图像和视频;2) 数据集中包含952,955个参与新闻讨论的用户,涵盖了68,040个标注的社交机器人和411,635个真实账户;3) 研究人员提出了一个可扩展的弱监督框架来标注账户,并在99,774个账户上进行训练,提供了一个强大的标注工具。
使用方法
使用Sina Weibo Misinformation and Social Bots Dataset的方法如下:1) 数据集可用于研究和开发虚假信息检测模型,通过分析多模态信息和用户互动来提高检测性能;2) 数据集可用于研究社交机器人在虚假信息传播中的作用,包括放大回音室、操纵公众情绪和逆转公众立场;3) 数据集可用于开发社交机器人检测模型,通过分析账户特征和用户发布的内容来识别社交机器人。
背景与挑战
背景概述
随着社交媒体平台的兴起,信息传播速度远超传统媒体,使得社交媒体成为传播虚假信息的理想媒介。自动化账户,即社交机器人,在虚假信息传播中发挥着重要作用。本文提出一个全面且大规模的虚假信息数据集,包含11,393条虚假信息和16,416条无偏见真实信息,以及952,955个相关用户。本文还提出了一种可扩展的弱监督方法来标注社交机器人,获得了68,040个社交机器人和411,635个真实账户。据我们所知,这是目前最大的包含虚假信息和社交机器人的数据集。本文在数据集上进行了全面的实验和分析。结果表明,社交机器人在虚假信息传播中发挥着核心作用,参与新闻讨论以放大回声室,操纵公众情绪,并扭转公众立场。
当前挑战
社交机器人和虚假信息是危害在线安全的两个主要因素,它们会相互协作来放大其影响。为了应对这一挑战,研究人员已经开发了多种方法来检测虚假信息和社交机器人。虚假信息检测器关注新闻内容,如文本、图像或视频,以及外部信息,如评论、新闻环境和相关证据。社交机器人检测器则采用特征工程、自然语言处理技术和图神经网络等技术来检测社交机器人。然而,相对较少的研究关注虚假信息和社交机器人之间的相互作用。本文旨在填补这一空白,研究社交机器人和虚假信息之间的相互作用。
常用场景
经典使用场景
该数据集主要用于研究社交媒体平台上的虚假信息和社交机器人之间的相互作用。它提供了大量关于虚假信息和社交机器人活动的大规模数据集,包括11,393条虚假信息和16,416条真实信息,以及952,955个相关用户的数据。此外,数据集还包括68,040个社交机器人账户和411,635个真实账户的注释信息,为研究虚假信息和社交机器人之间的相互作用提供了丰富的数据基础。
解决学术问题
该数据集的提出填补了现有研究的空白,它首次同时包含了虚假信息和社交机器人的注释信息,为研究虚假信息和社交机器人之间的相互作用提供了重要的数据支持。此外,该数据集还提供了关于用户互动和社交媒体平台算法对虚假信息传播的影响的深入分析,为理解虚假信息的传播机制提供了新的视角。
衍生相关工作
基于该数据集,可以进一步研究社交机器人在不同类型虚假信息传播中的作用,以及不同类型虚假信息对公众舆论的影响。此外,还可以研究社交媒体平台算法对虚假信息传播的影响,以及如何优化算法以减少虚假信息的传播。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

多个球状星团的光谱和测光数据集

该数据集是多个球状星团的光谱和测光综合数据集,由意大利国家天体物理学院-帕多瓦天体物理观测站等研究机构的研究人员整理。数据集包含了38个球状星团的恒星在14种化学元素上的丰度信息,包括锂、碳、氮、氧、钠、镁、铝、硅、钾、钙、钛、铁、镍和钡。这些数据来源于多个光谱测量项目,如Apache Point Observatory Galactic Evolution Experiment (APOGEE)、Gaia-ESO Survey (GES)和Galactic Archaeology with HERMES (GALAH)。数据集的目的是研究球状星团中不同恒星星族的化学组成,以揭示其形成和演化的机制。

arXiv 收录

Breast Ultrasound Images (BUSI)

小型(约500×500像素)超声图像,适用于良性和恶性病变的分类和分割任务。

github 收录

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录

PDT Dataset

PDT数据集是由山东计算机科学中心(国家超级计算济南中心)和齐鲁工业大学(山东省科学院)联合开发的无人机目标检测数据集,专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本,共计5775张图像,涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注,旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术,旨在提高无人机在植物保护中的目标识别精度,解决传统检测模型在实际应用中的不足。

arXiv 收录