Weibo-COV
收藏github2024-05-23 更新2024-05-31 收录
下载链接:
https://github.com/nghuyong/weibo-public-opinion-datasets
下载链接
链接失效反馈官方服务:
资源简介:
Weibo-COV是一个大规模的COVID-19社交媒体数据集,包含了从2019年12月1日至2020年4月30日通过关键词筛选的40,893,832条微博,以及带有GEO标签的未经过滤的45,901,994条原始微博。
Weibo-COV is a large-scale COVID-19 social media dataset, encompassing 40,893,832 Weibo posts filtered by keywords from December 1, 2019, to April 30, 2020, along with 45,901,994 unfiltered original Weibo posts with GEO tags.
创建时间:
2020-02-20
原始信息汇总
数据集概述
数据集名称
- Weibo-COV 1.0
- Weibo-COV 2.0
数据集描述
-
Weibo-COV 1.0:
- 时间范围: 2019-12-01 00:00 - 2020-04-30 23:59 (GMT+8)
- 关键词: 共179个选定关键词
- 数据量: 从692,792,816条原始推文中筛选出40,893,832条推文。此外,还发布了带有GEO标签的所有原始推文,共计45,901,994条,未经过关键词过滤。
- 样本结构: 包括_id, user_id, crawl_time, created_at, like_num, repost_num, comment_num, content, origin_weibo, geo_info等字段。
-
Weibo-COV 2.0:
- 时间范围: 2019-12-01 00:00 - 2020-12-30 23:59 (GMT+8)
- 关键词: 包含通用关键词和每月不同的关键词,用于过滤当月所有原始推文。
- 数据量: 从2,615,185,101条原始推文中筛选出65,175,112条推文。
- 样本结构: 包括_id, user_id, crawl_time, created_at, like_num, repost_num, comment_num, content, origin_weibo, geo_info等字段。
数据集更新
- 2021-01-18: 发布Weibo-COV 2.0,包含2000万微博活跃用户池。
- 2020-12-30: Weibo-COV已支持超过200个项目。
- 2020-10-06: 关于此数据集的论文已被NLP4COVID@EMNLP2020接受。
- 2020-06-24: 添加
user_id以识别每个用户,该ID是原始微博user_id的哈希结果。
数据集下载
- 获取数据集需填写相应的申请表并发送至Yong Hu (nghuyong@163.com) 和 Anfan Chen (caftsinghuaedu@gmail.com)。
引用信息
@inproceedings{hu-etal-2020-weibo, title = "{W}eibo-{COV}: A Large-Scale {COVID}-19 Social Media Dataset from {W}eibo", author = "Hu, Yong and Huang, Heyan and Chen, Anfan and Mao, Xian-Ling", booktitle = "Proceedings of the 1st Workshop on {NLP} for {COVID}-19 (Part 2) at {EMNLP} 2020", month = dec, year = "2020", address = "Online", publisher = "Association for Computational Linguistics", url = "https://www.aclweb.org/anthology/2020.nlpcovid19-2.34", doi = "10.18653/v1/2020.nlpcovid19-2.34", }
搜集汇总
数据集介绍

构建方式
Weibo-COV数据集的构建基于对微博平台上与COVID-19相关的大量推文的系统性收集与筛选。该数据集的时间跨度从2019年12月1日至2020年12月30日,涵盖了疫情初期至相对稳定期的关键阶段。构建过程中,研究团队首先通过179个精选关键词对原始推文进行初步过滤,随后对这些推文进行详细的数据清洗和标注,包括用户ID、发布时间、点赞数、转发数、评论数以及地理位置信息等。此外,为了保护用户隐私,用户ID经过哈希处理。最终,数据集包含了65,175,112条经过关键词过滤的推文和45,901,994条带有地理位置标签的原始推文。
特点
Weibo-COV数据集的主要特点在于其大规模、多维度以及时间序列上的连续性。首先,数据集包含了超过6500万条推文,为研究COVID-19在社交媒体上的传播提供了丰富的数据基础。其次,数据集不仅包含了推文内容,还涵盖了用户行为数据,如点赞、转发和评论,这为分析公众情绪和行为模式提供了可能。此外,数据集的时间跨度长达一年,使得研究者能够追踪疫情发展与社交媒体反应之间的动态关系。最后,数据集还提供了经过脱敏处理的用户池,进一步支持了用户行为和社交网络分析。
使用方法
Weibo-COV数据集适用于多种研究目的,包括但不限于疫情传播分析、公众情绪监测、社交媒体用户行为研究以及舆情预测。研究者可以通过关键词检索、时间序列分析和用户行为统计等方法,深入挖掘数据中的信息。为了获取数据集,研究者需填写申请表并发送至指定邮箱,经过审核后即可获得访问权限。数据集的下载和使用需遵守相关法律法规和伦理规范,确保数据的安全性和隐私保护。
背景与挑战
背景概述
Weibo-COV数据集是由Yong Hu、Heyan Huang、Anfan Chen和Xian-Ling Mao等研究人员于2020年创建的,旨在通过大规模的微博数据分析COVID-19疫情对社会舆论的影响。该数据集涵盖了2019年12月至2020年12月的时间段,包含超过6500万条微博数据,通过179个关键词进行筛选,旨在捕捉与疫情相关的公众情绪和信息传播模式。Weibo-COV不仅为疫情研究提供了宝贵的数据资源,还为社交媒体分析和公共卫生政策制定提供了重要的参考。
当前挑战
Weibo-COV数据集在构建过程中面临多项挑战。首先,数据量庞大,从近26亿条原始微博中筛选出相关数据,需要高效的算法和计算资源。其次,关键词筛选方法需不断优化,以确保数据的准确性和代表性。此外,数据隐私和安全问题也是一大挑战,尤其是在处理用户ID和地理位置信息时,需确保数据脱敏和合规性。最后,如何从海量数据中提取有价值的信息,并应用于实际的疫情监测和政策制定,是该数据集面临的另一重要挑战。
常用场景
经典使用场景
在公共卫生与社会科学领域,Weibo-COV数据集以其庞大的微博用户数据和详尽的疫情相关内容,成为研究COVID-19疫情传播与公众反应的经典工具。研究者利用该数据集分析疫情初期公众情绪变化、谣言传播路径以及政府政策的社会反响,从而为疫情应对策略提供数据支持。
衍生相关工作
基于Weibo-COV数据集,研究者们开展了多项衍生工作,包括开发疫情预测模型、设计公众情绪分析工具以及构建社交媒体信息传播网络。这些工作不仅丰富了疫情研究的理论框架,还为实际应用提供了技术支持,推动了社交媒体数据在公共卫生领域的深度应用。
数据集最近研究
最新研究方向
在新冠疫情背景下,Weibo-COV数据集的最新研究方向主要集中在社交媒体数据的情感分析、舆情监测以及用户行为模式识别。通过分析微博平台上与疫情相关的大量文本数据,研究人员能够深入了解公众对疫情的情感反应和态度变化,从而为政策制定和公共卫生管理提供有力支持。此外,该数据集还促进了基于社交媒体的疫情传播模型研究,有助于预测和控制疫情扩散。这些研究不仅提升了对疫情影响的理解,也为未来公共卫生事件的应对策略提供了宝贵的数据资源。
以上内容由遇见数据集搜集并总结生成



