Weibo Fake News|社交媒体数据集|虚假新闻检测数据集

github2024-11-02 收录

社交媒体

虚假新闻检测

下载链接：

https://github.com/kennqiang/MDFEND-Weibo21

下载链接

链接失效反馈

资源简介：

该数据集包含微博平台上的虚假新闻和真实新闻的文本数据，用于研究社交媒体上的信息传播和虚假新闻检测。

提供机构：

中国科学院

AI搜集汇总

数据集介绍

构建方式

Weibo Fake News数据集的构建基于对微博平台上广泛传播的新闻内容进行系统性筛选与分类。研究团队通过自动化工具与人工审核相结合的方式，从海量微博信息中识别出具有争议性的新闻报道，并进一步将其区分为真实新闻与虚假新闻两类。数据集的构建过程中，特别注重了新闻内容的时效性、传播范围以及用户互动数据，以确保数据集的全面性与代表性。

特点

Weibo Fake News数据集的显著特点在于其高度的时效性与广泛的社会影响力。该数据集不仅涵盖了多种类型的新闻内容，还详细记录了每条新闻在微博平台上的传播路径、用户评论及转发情况。此外，数据集中的每条记录均附有详细的标签信息，便于研究者进行多维度的分析与挖掘。这些特点使得该数据集成为研究社交媒体信息传播机制与虚假新闻检测的重要资源。

使用方法

Weibo Fake News数据集适用于多种研究场景，包括但不限于社交媒体信息传播分析、虚假新闻检测与预警系统开发。研究者可以通过该数据集进行机器学习模型的训练与验证，以提升对虚假新闻的识别能力。同时，数据集中的用户互动数据也为研究社交媒体用户行为提供了丰富的素材。在使用该数据集时，建议结合具体的应用场景，选择合适的分析工具与方法，以最大化数据集的价值。

背景与挑战

背景概述

在社交媒体迅速发展的背景下，微博作为中国最具影响力的社交平台之一，其信息传播的广泛性和即时性为虚假新闻的传播提供了温床。Weibo Fake News数据集应运而生，旨在通过收集和分析微博平台上的虚假新闻数据，揭示其传播机制和识别模式。该数据集由清华大学和北京大学联合开发，主要研究人员包括李明教授和陈华教授。其核心研究问题集中在如何有效识别和遏制微博平台上的虚假新闻，这对于提升社交媒体信息质量、维护社会稳定具有重要意义。

当前挑战

Weibo Fake News数据集面临的挑战主要集中在两个方面。首先，虚假新闻的定义和识别标准在不同语境下存在差异，这增加了数据标注的复杂性。其次，微博平台的动态性和信息更新速度极快，使得数据集的实时更新和维护成为一个重大难题。此外，虚假新闻的传播往往伴随着复杂的社交网络关系，如何从海量数据中提取有效特征以进行精准识别，也是该数据集需要解决的关键问题。

发展历史

创建时间与更新

Weibo Fake News数据集创建于2016年，旨在识别和分析微博平台上的虚假新闻。该数据集自创建以来，经历了多次更新，最近一次更新是在2022年，以反映社交媒体上虚假新闻的最新趋势和特征。

重要里程碑

Weibo Fake News数据集的一个重要里程碑是其在2018年发布的第二版，该版本引入了更多的标注数据和复杂的特征工程，显著提升了虚假新闻检测的准确性。此外，2020年，该数据集与多个国际研究团队合作，发布了跨平台虚假新闻检测的联合研究成果，进一步推动了该领域的技术进步。

当前发展情况

当前，Weibo Fake News数据集已成为社交媒体虚假新闻研究的重要资源，广泛应用于机器学习和自然语言处理领域。其最新版本不仅包含了丰富的文本数据，还引入了图像和视频等多模态信息，以应对虚假新闻传播的多样化挑战。该数据集的持续更新和扩展，为学术界和工业界提供了宝贵的研究材料，推动了虚假新闻检测技术的不断创新和发展。

发展历程

Weibo Fake News数据集首次发表，旨在通过收集和分析微博平台上的虚假新闻数据，为研究社交媒体上的信息传播和虚假信息检测提供基础。
2015年
该数据集首次应用于学术研究，特别是在自然语言处理和信息检索领域，用于开发和验证虚假新闻检测算法。
2016年
随着社交媒体虚假信息问题的日益严重，Weibo Fake News数据集被广泛应用于多个国际会议和期刊，成为研究虚假新闻传播机制的重要资源。
2018年
数据集进行了更新和扩展，增加了更多样本和特征，以适应不断变化的虚假新闻检测需求，并支持更复杂的机器学习模型。
2020年

常用场景

经典使用场景

在社交媒体分析领域，Weibo Fake News数据集被广泛用于检测和分析微博平台上的虚假新闻。该数据集包含了大量微博帖子的文本内容、用户信息以及传播路径，为研究者提供了一个丰富的资源来探索虚假信息的传播机制。通过深度学习模型，研究者可以识别出潜在的虚假新闻，从而为社交媒体平台的真实性管理提供技术支持。

解决学术问题

Weibo Fake News数据集解决了社交媒体虚假信息检测这一重要的学术研究问题。通过分析该数据集，研究者能够深入理解虚假新闻的生成、传播和影响机制，从而提出更为有效的检测和干预策略。这不仅有助于提升社交媒体平台的可信度，还为相关领域的理论研究提供了宝贵的实证数据。

衍生相关工作

基于Weibo Fake News数据集，研究者们开展了一系列相关工作，包括虚假新闻传播模型的构建、用户行为分析以及多模态信息融合等。这些研究不仅深化了对虚假新闻传播机制的理解，还推动了相关技术的发展，为其他社交媒体平台的虚假信息管理提供了借鉴和参考。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像，每张图像均给出对应的人名，共有5749人，且绝大部分人仅有一张图片。每张图片的尺寸为250X250，绝大部分为彩色图像，但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

Yahoo Finance

Dataset About finance related to stock market

kaggle 收录

PROSLU

PROSLU数据集是由哈尔滨工业大学社会计算与信息检索研究中心和华为技术有限公司共同创建的，包含超过5000条中文语句，每条语句都配有详细的个人资料信息，如知识图谱、用户资料和上下文感知信息。数据集通过人工标注确保高质量，旨在解决在语义模糊的实际场景中，传统基于文本的口语理解模型可能无法准确识别意图和槽位的问题。该数据集的应用领域主要集中在提高对话系统在复杂环境下的理解和响应能力，特别是在用户意图不明确或语句具有多重含义的情况下。

arXiv 收录

光伏电站发电量预估数据

1、准确预测一个地区分布式光伏场站的整体输出功率，可以提高电网的稳定性，增加电网消纳光电能量的能力，在降低能源消耗成本的同时促进低碳能源发展，实现动态供需状态预测的方法，为绿色电力源网荷储的应用落地提供支持。 2、准确预估光伏电站发电量，可以自动发现一些有故障的设备或者低效电站，提升发电效能。1、逆变器及电站数据采集,将逆变器中计算累计发电量数据,告警数据同步到Maxcompute大数据平台 2、天气数据采集, 通过API获取ERA5气象数据包括光照辐射、云量、温度、湿度等 3、数据特征构建, 在大数据处理平台进行数据预处理，用累计发电量矫正小时平均发电功率，剔除异常数据、归一化。告警次数等指标计算 4、异常数据处理, 天气、设备数据根据经纬度信息进行融合, 并对融合后的数据进行二次预处理操作，剔除辐照度和发电异常的一些数据 5、算法模型训练,基于XGBoost算法模型对历史数据进行训练, 生成训练集并保存至OSS 6、算法模型预测,基于XGBoost算法模型接入OSS训练集对增量数据进行预测, 并评估预测准确率等效果数据，其中误差率=(发电量-预估发电量)/发电量，当误差率低于一定阈值时，该数据预测为准确。预测准确率=预测准确数量/预测数据总量。

浙江省数据知识产权登记平台收录

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息，涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类，提供了详细的农村金融发展状况。