Weibo Dataset

github2024-05-10 更新2024-05-31 收录

下载链接：

https://github.com/yzhouli/SocialNet

下载链接

链接失效反馈

资源简介：

V1版本包含了2023年上半年来自微博平台的2,106条新闻数据。其中包含1,000条假新闻和1,067条真实新闻。数据集包含新闻传播的评论数据，包含用户和评论信息。V2版本包含了来自中国微博社交媒体平台的11,329条新闻。其中包含5,661条假新闻和5,668条真实新闻。与V1版本相比，V2版本在V1的基础上扩大了数据量。同时，V2提供了新闻的多模态数据，包括新闻帖子、评论集合、图片、视频和声音信息。因此，V2提供了更真实的社交网络环境模拟，从而支持下游任务。

The V1 version consists of 2,106 news articles from the Weibo platform in the first half of 2023, including 1,000 pieces of fake news and 1,067 pieces of real news. This dataset covers comment data generated during news dissemination, containing information about both users and their comments. The V2 version contains 11,329 news articles from the Chinese social media platform Weibo, with 5,661 fake news and 5,668 real news. Compared with the V1 version, the V2 version has an expanded dataset scale. Additionally, the V2 version provides multimodal data including news posts, comment collections, images, videos and audio information. As a result, the V2 version enables more realistic social network environment simulation, thereby supporting downstream tasks.

创建时间：

2024-05-06

原始信息汇总

Weibo Dataset

V1

数据量: 包含2,106条新闻，其中1,000条为假新闻，1,067条为真新闻。
内容: 包含用户和评论信息。

V2

数据量: 包含11,329条新闻，其中5,661条为假新闻，5,668条为真新闻。
内容: 提供多模态数据，包括新闻帖子、评论集合、图片、视频和语音信息。

V3

状态: 正在开发中，预计2025年下半年发布。

TikTok Dataset

状态: 正在开发中，预计2024年7月发布第一版。

Twitter (X) Dataset

状态: 正在开发中，详情待定。

AI搜集汇总

数据集介绍

构建方式

Weibo Dataset的构建基于2023年上半年主流社交媒体平台上的新闻数据，涵盖了2,106条新闻，其中包含1,000条虚假新闻和1,067条真实新闻。该数据集不仅收集了新闻的评论数据，还整合了用户、评论以及多模态信息。随着版本的更新，V2版本扩展了数据规模，包含11,329条新闻，其中5,661条为虚假新闻，5,668条为真实新闻。V2版本进一步丰富了数据的多模态特性，包括新闻帖子、评论集合、图像、视频和语音信息，从而更全面地模拟了社交媒体的真实环境。

使用方法

Weibo Dataset适用于多种社交媒体分析任务，包括但不限于谣言检测、信息验证、用户行为分析和多模态数据处理。研究者可以通过访问数据集的GitHub链接下载所需数据，并根据具体研究需求进行数据预处理和模型训练。数据集的多模态特性要求研究者在分析时考虑不同类型数据的整合与处理，以充分利用数据集提供的丰富信息。

背景与挑战

背景概述

微博数据集（Weibo Dataset）是由主流社交媒体平台微博上的新闻数据构成的公开数据集，旨在为社交媒体上的假新闻检测提供丰富的数据支持。该数据集由Yang Zhou等研究人员于2023年首次发布，涵盖了2023年上半年微博平台上的2,106条新闻，其中包括1,000条假新闻和1,067条真实新闻。随着版本的迭代，V2版本进一步扩展了数据规模，包含11,329条新闻，其中5,661条为假新闻，5,668条为真实新闻。V2版本不仅提供了新闻文本数据，还引入了多模态信息，如图片、视频和语音，从而更全面地模拟了社交媒体的真实传播环境。该数据集的发布为假新闻检测、社交媒体分析等领域的研究提供了重要的数据基础，推动了相关技术的进步。

当前挑战

微博数据集在构建过程中面临多项挑战。首先，假新闻与真实新闻的区分是该数据集的核心问题之一，如何在海量数据中准确识别并标注假新闻是一项复杂的任务。其次，多模态数据的引入增加了数据处理的复杂性，如何有效整合文本、图片、视频和语音信息，并确保其在下游任务中的可用性，是数据集构建中的另一大挑战。此外，随着社交媒体环境的快速变化，数据集的时效性和更新频率也成为关键问题，V3版本的延迟发布表明了数据集扩展和维护的难度。这些挑战不仅影响了数据集的质量，也对相关研究提出了更高的技术要求。

常用场景

经典使用场景

Weibo Dataset 在社交媒体分析领域具有广泛的应用前景，尤其是在假新闻检测和真实新闻识别方面。该数据集通过收集微博平台上的新闻内容及其相关的用户评论、图片、视频等多模态信息，为研究者提供了一个全面的社交媒体数据环境。其经典使用场景包括利用机器学习算法对新闻的真实性进行分类，以及通过多模态数据分析来增强假新闻检测的准确性。

解决学术问题

Weibo Dataset 解决了社交媒体领域中假新闻快速传播和难以识别的学术问题。通过提供大规模的真实和虚假新闻样本，该数据集支持研究者开发和验证假新闻检测模型，从而提高社交媒体内容的真实性评估能力。此外，数据集的多模态特性为研究者提供了丰富的信息来源，有助于探索多模态数据在假新闻检测中的应用，推动了相关领域的研究进展。

实际应用

在实际应用中，Weibo Dataset 可用于开发和部署社交媒体监控系统，帮助平台管理员和政府机构快速识别和应对假新闻的传播。通过分析新闻内容及其相关的用户互动数据，这些系统能够实时检测和标记潜在的虚假信息，从而减少假新闻对公众舆论的影响。此外，该数据集还可用于培训和测试智能客服系统，以提高其对用户查询中虚假信息的识别能力。

数据集最近研究