Institutional and news media tweet dataset for COVID-19 social science research

Name: Institutional and news media tweet dataset for COVID-19 social science research
Creator: 巴塞罗那自治大学社会心理学系
Published: 2020-04-04 05:57:32
License: 暂无描述

arXiv2020-04-04 更新2024-06-21 收录

下载链接：

https://github.com/narcisoyu/Institional-and-news-media-tweet-dataset-for-COVID-19-social-science-research

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集名为‘Institutional and news media tweet dataset for COVID-19 social science research’，由巴塞罗那自治大学社会心理学系创建。该数据集收集了69个机构和新闻媒体的Twitter数据，涵盖政府、国际组织及北美、欧洲和亚洲的新闻媒体。数据集通过Twitter REST API从2020年3月12日开始收集，每周更新，旨在为危机沟通、公共关系等社会科学研究提供有价值的数据。数据集的创建过程涉及从不同类别的新闻媒体账户中提取和整理信息，确保数据的多样性和时效性。

This dataset is named 'Institutional and news media tweet dataset for COVID-19 social science research', and was created by the Department of Social Psychology, Universitat Autònoma de Barcelona. It collects Twitter data from 69 institutional and news media accounts, covering government entities, international organizations, and news media outlets across North America, Europe, and Asia. The dataset was collected starting from March 12, 2020 via the Twitter REST API, with weekly updates, and is designed to provide valuable data for social science research fields including crisis communication and public relations. The dataset creation process involves extracting and curating information from news media accounts across various categories, ensuring the diversity and timeliness of the collected data.

提供机构：

巴塞罗那自治大学社会心理学系

创建时间：

2020-04-04

搜集汇总

数据集介绍

构建方式

在COVID-19疫情迅速演变为全球性危机之际，为填补现有公开社交媒体数据集中缺乏专门针对机构与新闻媒体推特数据收集的空白，该数据集通过Twitter REST API，自2020年3月12日起，系统性地从69个经过遴选的机构及新闻媒体推特账户中检索数据。这些账户被划分为八个类别，包括政府与国际组织（如WHO、CDC等）以及覆盖北美、欧洲和亚洲的新闻媒体（如纽约时报、BBC、世界报等）。首次收集时，获取了每个账户截至2020年3月12日的最多3200条历史推文，未设定时间下限，因此各账户的首条推文日期可能较早。此后，数据集每周更新一次，并通过匹配推文ID去除重复数据，最终获得清洁版本。

特点

该数据集的核心特色在于其高度的领域专精性与跨区域覆盖能力。与广泛基于关键词抓取的COVID-19推特数据集不同，它聚焦于政策制定者与权威新闻源，为危机传播、公共关系等社会科学研究提供了独特的分析素材。数据集包含政府、国际组织及多国主流新闻媒体的推文，涵盖了从公共卫生机构到全球通讯社的多元视角。此外，由于收集策略未限定推文话题，数据集中既包含与疫情直接相关的内容，也容纳了无关信息，这为对比分析、语境研究以及探究疫情对公共话语影响的复杂性开辟了新的学术可能性。

使用方法

该数据集以推文ID的形式公开发布于GitHub平台，严格遵循推特官方开发者协议。研究者需通过Hydrator或Twarc等工具对推文ID进行水化处理，以获取完整的推文元数据与内容。数据集的每周更新机制确保了研究素材的时效性，便于追踪疫情发展过程中话语的动态演变。使用者应遵守所选许可证规定的使用条款，并参照前述工具的操作指南进行数据还原与分析，从而高效地开展社会科学领域的量化或质性研究。

背景与挑战

背景概述

在COVID-19疫情迅速演变为全球性危机的背景下，社会科学研究对高质量、结构化数据的需求急剧上升。Twitter作为实时信息传播的重要平台，其数据在分析公众情绪、政策响应及危机传播等领域展现出独特价值。然而，现有公开的COVID-19相关Twitter数据集多基于关键词采集，缺乏对权威机构与新闻媒体账号的系统性覆盖。为填补这一空白，Jingyuan Yu于2020年3月启动了该数据集的构建工作，依托巴塞罗那自治大学社会心理学系，通过Twitter REST API从69个机构及新闻媒体账号中采集推文，涵盖政府、国际组织及北美、欧洲、亚洲的主流媒体。该数据集以开放获取形式发布在GitHub上，每周更新，旨在为危机传播、公共关系等社会科学研究提供精准的数据支撑，成为该领域重要的基础资源。

当前挑战

该数据集所应对的核心挑战在于，现有的COVID-19 Twitter数据集普遍基于关键词（如“coronavirus”）进行采集，导致数据混杂且无法区分信息来源的权威性，难以支撑针对政策制定者与新闻媒体传播行为的精细研究。为此，数据集聚焦于69个经过筛选的机构与新闻媒体账号，确保数据来源的权威性与针对性。然而，构建过程中面临多重技术难题：一是Twitter REST API对每个账号仅能获取最近3200条推文，导致不同账号的时间跨度不一，早期数据可能缺失；二是需每周更新并去重，通过匹配推文ID剔除重复内容，保证数据清洁度；三是数据中既包含与COVID-19相关的推文，也包含无关内容，这虽为分析提供了灵活性，但也增加了后续主题筛选的复杂性。

常用场景

经典使用场景

在突发公共卫生事件的研究中，社交媒体数据已成为洞察公众情绪与政策响应的关键窗口。该数据集聚焦于全球69个机构与新闻媒体的Twitter账号，涵盖政府、国际组织及北美、欧洲、亚洲的主流新闻机构，为研究者提供了系统性的官方信息传播轨迹。其经典使用场景在于追踪疫情相关信息的发布与扩散模式，例如分析各国卫生部门如何通过推文传递防控指南，或比较不同新闻媒体在报道疫情时的叙事框架与传播策略。通过整合这些权威信源的时间序列数据，学者能够精准刻画危机沟通中的信息流动图谱。

实际应用

在实际应用中，该数据集为公共卫生决策与媒体策略优化提供了数据驱动的支持。政府机构可借助其分析结果评估自身信息发布的有效性，例如识别哪些类型的推文能显著提升公众的防护行为依从性。新闻媒体则能通过比较同行的传播表现，调整报道节奏与内容侧重以增强社会影响力。此外，该数据也被用于开发实时舆情监测系统，辅助应急管理部门快速捕捉谣言滋生或公众恐慌的信号，从而及时调整沟通方案。在商业领域，企业可据此洞察消费者在疫情下的信息偏好，优化品牌传播的时机与语境。

衍生相关工作

该数据集催生了一系列衍生研究，丰富了计算社会科学的方法论体系。基于其结构化账号分类，学者构建了跨机构的信息级联模型，用以模拟官方信息在社交媒体生态中的传播路径。另有工作利用自然语言处理技术，从推文中提取政策关键词与情感倾向，开发出危机沟通的语义网络分析框架。在数据共享层面，该数据集的开源模式启发了后续类似项目，例如整合多语种新闻媒体的疫情话语分析数据库。此外，结合其时间戳特征，研究者提出了可复现的社交媒体数据清洗与脱水-复水流程，成为同类研究的标准参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集