Institutional-and-news-media-tweet-dataset-for-COVID-19-social-science-research
收藏github2023-01-28 更新2024-05-31 收录
下载链接:
https://github.com/narcisoyu/Institional-and-news-media-tweet-dataset-for-COVID-19-social-science-research
下载链接
链接失效反馈官方服务:
资源简介:
COVID-19疫情期间机构和新闻媒体推特数据集的开放访问数据仓库,用于社会科学研究。数据收集自多个国家的新闻媒体和政府/国际组织推特,使用Twitter REST API进行收集。
An open-access data repository of Twitter datasets from institutions and news media during the COVID-19 pandemic, intended for social science research. The data was collected from Twitter accounts of news media and government/international organizations across multiple countries, utilizing the Twitter REST API for data acquisition.
创建时间:
2020-04-02
原始信息汇总
数据集概述
数据集名称
- Institutional-and-news-media-tweet-dataset-for-COVID-19-social-science-research
数据集描述
- 该数据集为COVID-19疫情期间机构和新闻媒体的推文数据,用于社会科学研究。
数据集更新
- 数据集自2021年2月20日起不再更新,原因是Twitter提供了新的学术API,可以访问完整的历史数据。
数据收集方法
- 数据通过Twitter REST API收集。
- 首次数据收集于2020年3月12日,之后每周更新。
数据集版本更新
- 数据集版本从V1.0至V1.46,详细记录了每次更新的时间范围和特定账户的推文情况。
数据集内容变更
- 数据集定期更新,包括添加新的媒体或政府账户,以及移除不再活跃的账户。
数据集使用许可
搜集汇总
数据集介绍

构建方式
该数据集通过Twitter REST API收集了多个国家和地区的新闻媒体及政府/国际组织在COVID-19疫情期间发布的推文。数据收集始于2020年3月12日,每周更新一次,每次更新时收集目标账户的最新3200条推文(Twitter官方限制)。数据集涵盖了美国、英国、中国、西班牙、法国、德国等多个国家的推文,确保了数据的广泛性和代表性。
特点
该数据集的特点在于其时间跨度和地理覆盖范围广泛,涵盖了COVID-19疫情期间多个国家和地区的官方及新闻媒体推文。数据集每周更新,确保了数据的时效性。此外,数据集中包含了推文的元数据,如发布时间、推文内容等,为研究者提供了丰富的信息源。数据集还记录了部分账户在特定时间段内未发布推文的情况,增加了数据的透明度和可信度。
使用方法
该数据集的使用方法包括通过Hydrator或twarc工具进行数据水合(hydrate),以获取完整的推文内容。研究者可以利用这些工具将推文ID转换为完整的推文数据,进而进行文本分析、情感分析、主题建模等研究。数据集适用于社会科学、传播学、公共卫生等领域的研究,特别是与COVID-19相关的社交媒体行为分析和政策传播研究。
背景与挑战
背景概述
Institutional-and-news-media-tweet-dataset-for-COVID-19-social-science-research数据集由Jingyuan Yu等人于2020年4月创建,旨在为COVID-19疫情期间的社交媒体研究提供数据支持。该数据集收集了来自多个国家的新闻媒体和政府机构的推文,涵盖了美国、英国、中国、西班牙、法国、德国等国家的官方账号。数据收集始于2020年3月12日,每周更新一次,直至2021年2月20日停止更新。该数据集为研究COVID-19期间的信息传播、公众情绪和政策响应提供了宝贵的数据资源,并在社会科学领域产生了广泛影响。
当前挑战
该数据集面临的主要挑战包括:1) 数据收集的持续性问题,部分账号在疫情期间停止更新或推文频率极低,导致数据不完整;2) 数据清洗和整理的复杂性,由于推文内容涉及多语言和多种文化背景,处理和分析这些数据需要较高的技术门槛;3) 数据隐私和伦理问题,尽管推文是公开数据,但在研究过程中仍需谨慎处理敏感信息。此外,随着Twitter学术API的更新,数据集的使用和更新方式也面临新的挑战。
常用场景
经典使用场景
在COVID-19大流行期间,社交媒体成为信息传播和公众情绪表达的重要平台。该数据集通过收集全球多个国家的政府机构、国际组织和新闻媒体的推文,为研究社交媒体在公共卫生危机中的角色提供了丰富的数据支持。研究人员可以利用这些数据,分析不同国家在疫情中的信息传播策略、公众反应以及政策效果。
实际应用
在实际应用中,该数据集被广泛用于公共卫生政策的制定与评估。政府机构和国际组织可以通过分析推文数据,了解公众对政策的反应,及时调整信息传播策略。新闻媒体则可以利用这些数据,优化报道内容,提升信息的传播效果。此外,该数据集还为社交媒体平台提供了改进算法和内容审核机制的依据。
衍生相关工作
该数据集衍生了许多经典研究,例如吉田光男(2020)对日本社交媒体在疫情中的角色进行了深入分析,Liang等人(2020)则通过推文数据研究了不同国家在疫情中的主题动态与情感变化。此外,Shuja等人(2020)对该数据集进行了全面调查,探讨了其在开放数据研究中的应用潜力。这些研究不仅丰富了学术界对社交媒体在公共卫生危机中作用的理解,也为未来的政策制定提供了参考。
以上内容由遇见数据集搜集并总结生成



