Institutional-and-news-media-tweet-dataset-for-COVID-19-social-science-research

github2023-01-28 更新2024-05-31 收录

下载链接：

https://github.com/narcisoyu/Institutional-and-news-media-tweet-dataset-for-COVID-19-social-science-research

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个关于COVID-19疫情期间机构和新闻媒体推特的开放访问数据集，用于社会科学研究。数据收集自多个国家，如美国、英国、中国、西班牙、法国、德国等，使用Twitter REST API进行收集。

This is an open-access dataset concerning tweets from institutions and news media during the COVID-19 pandemic, intended for social science research. The data was collected from multiple countries, including the United States, the United Kingdom, China, Spain, France, and Germany, using the Twitter REST API.

创建时间：

2020-04-02

原始信息汇总

数据集概述

数据集名称

Institutional-and-news-media-tweet-dataset-for-COVID-19-social-science-research

数据集描述

该数据集是一个开放访问的数据存储库，专门收集在COVID-19大流行期间来自机构和新闻媒体的推文数据，用于社会科学研究。

数据收集方法

数据通过Twitter REST API收集。
首次数据收集于2020年3月12日，之后每周更新一次。

数据集更新历史

数据集自2020年3月12日起每周更新，直至2021年2月20日停止更新。
更新版本包括V1.0至V1.46，记录了从2020年4月至2021年2月的数据。

数据集内容变更

数据集中移除了一些推特账号，如@GuiseppeConteIT、@socialstyrelsen、@eu_leadership、@BrazilGovNews、@French_Gov等，因这些账号停止发布消息或发布频率过低。
新增了一些推特账号，如@LaStampa、@Corriere、@SE_tweet_id、@TR_tweet_id等。

数据集使用许可

该数据集遵循Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License。

联系方式

数据集维护者：Jingyuan Yu
电子邮件：narcisoyu[at]gmail[dot]com

搜集汇总

数据集介绍

构建方式

该数据集通过Twitter REST API收集了多个国家和地区的新闻媒体及政府/国际组织在COVID-19疫情期间发布的推文。数据收集始于2020年3月12日，每周更新一次，每次更新时获取目标账户的最新3200条推文。数据集涵盖了美国、英国、中国、西班牙、法国、德国等多个国家的相关账户，确保了数据的广泛性和时效性。

特点

该数据集的特点在于其专注于COVID-19疫情期间的社交媒体数据，特别是新闻媒体和政府机构的推文。数据集不仅包含了多语言、多国家的推文，还记录了推文的发布时间和内容，为研究疫情期间的信息传播、舆论导向和社会反应提供了丰富的素材。此外，数据集还保留了历史数据，便于研究者进行时间序列分析和对比研究。

使用方法

该数据集的使用方法主要包括通过Hydrator或twarc工具进行数据水合，以获取完整的推文内容。研究者可以利用这些工具将数据集中的推文ID转换为完整的推文信息，进而进行文本分析、情感分析、主题建模等研究。此外，数据集还提供了示例脚本，帮助用户快速筛选和分析特定主题的推文。

背景与挑战

背景概述

Institutional-and-news-media-tweet-dataset-for-COVID-19-social-science-research数据集由Jingyuan Yu等人于2020年4月创建，旨在为COVID-19大流行期间的社会科学研究提供数据支持。该数据集收集了来自多个国家（如美国、英国、中国、西班牙、法国、德国等）的新闻媒体和政府/国际组织的推文，首次数据收集于2020年3月12日，并每周更新。该数据集通过Twitter REST API获取数据，涵盖了COVID-19疫情期间的社交媒体动态，为研究者在公共卫生危机中的信息传播、政策响应和公众情绪分析提供了宝贵资源。该数据集已在多个学术研究中被引用，推动了COVID-19相关社会科学研究的发展。

当前挑战

该数据集面临的主要挑战包括：1) 数据收集的持续性问题，由于Twitter API的限制，数据集在2021年2月20日后停止更新，导致数据的时间覆盖范围有限；2) 数据完整性问题，部分目标账户在特定时间段内未发布推文，导致数据缺失；3) 数据清洗和标注的复杂性，推文内容涉及多语言、多主题，增加了数据处理的难度；4) 数据隐私和伦理问题，如何在公开数据的同时保护用户隐私是一个持续的挑战。这些挑战限制了数据集在长期研究和跨文化比较中的应用潜力。

常用场景

经典使用场景

在COVID-19疫情期间，社交媒体成为信息传播和公众情绪表达的重要平台。该数据集通过收集全球多个国家的政府机构、国际组织以及新闻媒体在Twitter上的推文，为研究人员提供了一个独特的视角，以分析疫情期间的信息传播模式、公众反应以及政策影响。这些数据不仅涵盖了疫情初期的关键时间点，还持续更新至2021年，为跨时间、跨地域的比较研究提供了丰富素材。

解决学术问题

该数据集解决了疫情期间社交媒体信息传播的多个学术研究问题。首先，它帮助研究者理解不同国家在应对疫情时的信息发布策略及其对公众的影响。其次，通过分析推文内容，研究者可以探讨疫情期间的舆论导向、情感变化以及虚假信息的传播机制。此外，数据集还为跨文化比较研究提供了基础，揭示了不同社会背景下信息传播的异同。这些研究不仅丰富了社会科学领域的理论框架，还为政策制定者提供了数据支持。

衍生相关工作

该数据集衍生了许多经典研究工作。例如，吉田光男（2020）利用该数据集分析了日本在疫情期间的社交媒体使用情况，揭示了信息传播的独特模式。Liang等人（2020）则通过推文内容研究了不同国家在疫情期间的主题动态和情感变化。此外，Shuja等人（2020）对该数据集进行了全面调查，展示了其在COVID-19研究中的广泛应用。这些研究不仅推动了社会科学领域的发展，还为未来的疫情应对提供了宝贵的经验。

以上内容由遇见数据集搜集并总结生成