Weibo-COV

github2024-05-23 更新2024-05-31 收录

下载链接：

https://github.com/nghuyong/weibo-public-opinion-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

Weibo-COV是一个大规模的COVID-19社交媒体数据集，包含了从2019年12月1日至2020年4月30日通过关键词筛选的40,893,832条微博，以及带有GEO标签的未经过滤的45,901,994条原始微博。

Weibo-COV is a large-scale COVID-19 social media dataset, encompassing 40,893,832 Weibo posts filtered by keywords from December 1, 2019, to April 30, 2020, along with 45,901,994 unfiltered original Weibo posts with GEO tags.

创建时间：

2020-02-20

原始信息汇总

数据集概述

数据集名称

Weibo-COV 1.0
Weibo-COV 2.0

数据集描述

Weibo-COV 1.0:
- 时间范围: 2019-12-01 00:00 - 2020-04-30 23:59 (GMT+8)
- 关键词: 共179个选定关键词
- 数据量: 从692,792,816条原始推文中筛选出40,893,832条推文。此外，还发布了带有GEO标签的所有原始推文，共计45,901,994条，未经过关键词过滤。
- 样本结构: 包括_id, user_id, crawl_time, created_at, like_num, repost_num, comment_num, content, origin_weibo, geo_info等字段。
Weibo-COV 2.0:
- 时间范围: 2019-12-01 00:00 - 2020-12-30 23:59 (GMT+8)
- 关键词: 包含通用关键词和每月不同的关键词，用于过滤当月所有原始推文。
- 数据量: 从2,615,185,101条原始推文中筛选出65,175,112条推文。
- 样本结构: 包括_id, user_id, crawl_time, created_at, like_num, repost_num, comment_num, content, origin_weibo, geo_info等字段。

数据集更新

2021-01-18: 发布Weibo-COV 2.0，包含2000万微博活跃用户池。
2020-12-30: Weibo-COV已支持超过200个项目。
2020-10-06: 关于此数据集的论文已被NLP4COVID@EMNLP2020接受。
2020-06-24: 添加user_id以识别每个用户，该ID是原始微博user_id的哈希结果。

数据集下载

获取数据集需填写相应的申请表并发送至Yong Hu (nghuyong@163.com) 和 Anfan Chen (caftsinghuaedu@gmail.com)。

引用信息

@inproceedings{hu-etal-2020-weibo, title = "{W}eibo-{COV}: A Large-Scale {COVID}-19 Social Media Dataset from {W}eibo", author = "Hu, Yong and Huang, Heyan and Chen, Anfan and Mao, Xian-Ling", booktitle = "Proceedings of the 1st Workshop on {NLP} for {COVID}-19 (Part 2) at {EMNLP} 2020", month = dec, year = "2020", address = "Online", publisher = "Association for Computational Linguistics", url = "https://www.aclweb.org/anthology/2020.nlpcovid19-2.34", doi = "10.18653/v1/2020.nlpcovid19-2.34", }

搜集汇总

数据集介绍

构建方式

Weibo-COV数据集的构建基于对微博平台上与COVID-19相关的大量推文的系统性收集与筛选。该数据集的时间跨度从2019年12月1日至2020年12月30日，涵盖了疫情初期至相对稳定期的关键阶段。构建过程中，研究团队首先通过179个精选关键词对原始推文进行初步过滤，随后对这些推文进行详细的数据清洗和标注，包括用户ID、发布时间、点赞数、转发数、评论数以及地理位置信息等。此外，为了保护用户隐私，用户ID经过哈希处理。最终，数据集包含了65,175,112条经过关键词过滤的推文和45,901,994条带有地理位置标签的原始推文。

特点

Weibo-COV数据集的主要特点在于其大规模、多维度以及时间序列上的连续性。首先，数据集包含了超过6500万条推文，为研究COVID-19在社交媒体上的传播提供了丰富的数据基础。其次，数据集不仅包含了推文内容，还涵盖了用户行为数据，如点赞、转发和评论，这为分析公众情绪和行为模式提供了可能。此外，数据集的时间跨度长达一年，使得研究者能够追踪疫情发展与社交媒体反应之间的动态关系。最后，数据集还提供了经过脱敏处理的用户池，进一步支持了用户行为和社交网络分析。

使用方法

Weibo-COV数据集适用于多种研究目的，包括但不限于疫情传播分析、公众情绪监测、社交媒体用户行为研究以及舆情预测。研究者可以通过关键词检索、时间序列分析和用户行为统计等方法，深入挖掘数据中的信息。为了获取数据集，研究者需填写申请表并发送至指定邮箱，经过审核后即可获得访问权限。数据集的下载和使用需遵守相关法律法规和伦理规范，确保数据的安全性和隐私保护。

背景与挑战

背景概述

Weibo-COV数据集是由Yong Hu、Heyan Huang、Anfan Chen和Xian-Ling Mao等研究人员于2020年创建的，旨在通过大规模的微博数据分析COVID-19疫情对社会舆论的影响。该数据集涵盖了2019年12月至2020年12月的时间段，包含超过6500万条微博数据，通过179个关键词进行筛选，旨在捕捉与疫情相关的公众情绪和信息传播模式。Weibo-COV不仅为疫情研究提供了宝贵的数据资源，还为社交媒体分析和公共卫生政策制定提供了重要的参考。

当前挑战

Weibo-COV数据集在构建过程中面临多项挑战。首先，数据量庞大，从近26亿条原始微博中筛选出相关数据，需要高效的算法和计算资源。其次，关键词筛选方法需不断优化，以确保数据的准确性和代表性。此外，数据隐私和安全问题也是一大挑战，尤其是在处理用户ID和地理位置信息时，需确保数据脱敏和合规性。最后，如何从海量数据中提取有价值的信息，并应用于实际的疫情监测和政策制定，是该数据集面临的另一重要挑战。

常用场景

经典使用场景

在公共卫生与社会科学领域，Weibo-COV数据集以其庞大的微博用户数据和详尽的疫情相关内容，成为研究COVID-19疫情传播与公众反应的经典工具。研究者利用该数据集分析疫情初期公众情绪变化、谣言传播路径以及政府政策的社会反响，从而为疫情应对策略提供数据支持。

衍生相关工作

基于Weibo-COV数据集，研究者们开展了多项衍生工作，包括开发疫情预测模型、设计公众情绪分析工具以及构建社交媒体信息传播网络。这些工作不仅丰富了疫情研究的理论框架，还为实际应用提供了技术支持，推动了社交媒体数据在公共卫生领域的深度应用。

数据集最近研究