COVID-19 Rumor Dataset

github2024-03-20 更新2024-05-31 收录

下载链接：

https://github.com/MickeysClubhouse/COVID-19-rumor-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了关于COVID-19的谣言信息，包括新闻和Twitter上的记录。数据集中的文件包括news.csv和Twitter.csv，分别记录了4129条新闻和2705条Twitter记录。此外，还有en_dup.csv文件，包含了未处理的数据，总计7179条记录，部分数据通过关键词手动搜索收集。

This dataset comprises information on COVID-19 related rumors, including records from news articles and Twitter. The dataset includes files such as news.csv and Twitter.csv, documenting 4,129 news entries and 2,705 Twitter records respectively. Additionally, there is an en_dup.csv file containing unprocessed data, totaling 7,179 records, some of which were collected through manual keyword searches.

创建时间：

2020-09-24

原始信息汇总

数据集结构

Data
- en_dup.csv
- news
  - news.csv (4129 records)
  - 3936 subfolders
- twitter
  - Twitter.csv (2705 records)
  - 1383 subfolders
Data Analysis
- PowerLaw Analysis.pdf
Data Collecting
- snopes.py by Tianqi
LICENSE
README.md

数据收集

snopes.py 用于从网站 www.snopes.com 和 qc.wa.news.cn 收集数据。

数据分析

PowerLaw Analysis 包括谣言流行度的统计分析。
预处理数据用于深度学习任务：Google Drive链接。
真实性分析：Google Colab链接。
情感分析：Google Colab链接。
立场分析：Google Colab链接。
VAE模型源：ResearchGate链接。

数据

en_dup.csv
- 包含新闻和推特记录的未处理数据。
- 记录数：7179（含重复）。
- 部分数据通过关键词搜索手动从twitter.com等来源收集。
- 来自www.snopes.com和qc.wa.news.cn的数据通过snopes.py收集。

致谢

感谢Tianqi, Wenshuo, Jianni, Xiaofeng, 和 Hanlong 对谣言数据的收集和标注。

引用

Cheng, Mingxi, et al. "A COVID-19 Rumor Dataset." Frontiers in Psychology 12 (2021): 1566.

搜集汇总

数据集介绍

构建方式

COVID-19 Rumor Dataset的构建过程主要依赖于多源数据的收集与整合。数据来源包括社交媒体平台Twitter和新闻网站，其中部分数据通过关键词搜索手动收集，另一部分则通过自动化脚本`snopes.py`从Snopes等网站抓取。数据集涵盖了新闻和推文两类数据，分别存储在`news`和`twitter`文件夹中，并包含未处理的原始数据`en_dup.csv`。数据收集后，研究团队进行了去重和预处理，以确保数据的完整性和可用性。

特点

该数据集的特点在于其广泛覆盖了COVID-19疫情期间的谣言信息，包含了新闻和推文两种形式的数据。数据集中的每条记录都经过详细的标注和分类，便于进行谣言传播、情感分析、立场分析等多任务研究。此外，数据集还提供了未处理的原始数据，为研究者提供了更多的灵活性和探索空间。数据集的多样性和丰富性使其成为研究疫情期间信息传播和谣言控制的重要资源。

使用方法

COVID-19 Rumor Dataset的使用方法多样，适用于多种研究任务。研究者可以通过提供的预处理数据进行深度学习模型的训练和验证，如谣言真实性分析、情感分析和立场分析等。数据集还附带了详细的统计分析报告，如幂律分布分析，帮助研究者深入理解谣言传播的规律。此外，数据集的使用指南和相关代码示例可通过Google Drive和Google Colab获取，便于研究者快速上手并进行实验。

背景与挑战

背景概述

COVID-19 Rumor Dataset 是由 Mingxi Cheng 等研究人员于2021年创建的一个专注于COVID-19疫情期间谣言传播的数据集。该数据集由 Tianqi、Wenshuo、Jianni、Xiaofeng 和 Hanlong 等团队成员共同收集和标注，涵盖了来自新闻网站和社交媒体的谣言数据。数据集的核心研究问题在于通过文本分析技术，研究谣言的传播模式、真实性、情感倾向和立场分析。该数据集在心理学和计算社会科学领域具有重要影响力，为研究者提供了丰富的数据资源，以深入探讨疫情期间信息传播的复杂性和社会心理影响。

当前挑战

COVID-19 Rumor Dataset 在解决谣言传播领域的挑战时，面临多方面的困难。首先，谣言的多样性和快速传播使得数据收集和标注变得复杂，尤其是在社交媒体平台上，信息的真实性和来源难以验证。其次，数据预处理过程中，如何有效去除重复数据并确保数据的完整性是一个技术难题。此外，构建深度学习模型进行谣言分类时，文本的多样性和语境复杂性增加了模型训练的难度。数据集的构建过程中，还需克服数据来源的多样性和数据格式不一致的问题，确保数据的可用性和一致性。

常用场景

经典使用场景

COVID-19 Rumor Dataset在社交媒体分析和谣言检测领域具有广泛的应用。该数据集通过整合新闻和推文数据，为研究者提供了一个全面的平台，用于分析COVID-19疫情期间的谣言传播模式。其经典使用场景包括谣言的可信度分析、情感分析和立场分析，这些分析有助于理解谣言在社交媒体上的传播机制和影响。

实际应用

在实际应用中，COVID-19 Rumor Dataset被广泛用于社交媒体监控和谣言管理。政府和公共卫生机构可以利用该数据集中的分析结果，及时识别和应对疫情中的虚假信息，从而减少谣言对公众健康和社会稳定的负面影响。此外，该数据集还为新闻机构和社交媒体平台提供了宝贵的资源，用于优化内容审核和信息传播策略。

衍生相关工作

基于COVID-19 Rumor Dataset，研究者们开发了多种先进的谣言检测和分类模型。例如，VRoC模型结合了变分自编码器和多任务学习，显著提高了谣言分类的准确性。此外，该数据集还催生了多篇高影响力的学术论文，进一步推动了社交媒体分析和谣言检测领域的研究进展。这些衍生工作不仅丰富了数据集的应用场景，还为相关领域的研究提供了新的方法和工具。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集