COVID19_Tweets_Dataset

github2024-05-12 更新2024-05-31 收录

下载链接：

https://github.com/lopezbec/COVID19_Tweets_Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含自2020年1月22日起与新冠病毒COVID-19相关的推文数据，截至2022年12月31日共收集了3,001,855,651条推文。数据集通过Twitter的趋势话题和选定关键词进行收集，并使用Chen等人(2020)的数据集补充非重复推文。

This dataset comprises tweets related to the COVID-19 virus, collected from January 22, 2020, to December 31, 2022, totaling 3,001,855,651 tweets. The data were gathered through Twitter's trending topics and selected keywords, with additional non-duplicate tweets supplemented from the dataset by Chen et al. (2020).

创建时间：

2021-07-15

原始信息汇总

数据集概述

数据集内容

时间范围：仅包含2022年的数据和统计信息。
其他年份数据：
- 2020年数据请访问：COVID19_Tweets_Dataset_2020
- 2021年数据请访问：COVID19_Tweets_Dataset_2021

数据收集

起始日期：2020年1月22日
收集方法：使用Twitter的趋势话题和选定关键词进行收集。
补充数据：使用Chen et al. (2020)的数据集补充非重复推文。
数据量：截至2022年12月31日，共收集3,001,855,651条推文。

数据组织

组织方式：按小时（UTC）、月份和表进行组织。
文件路径示例：./Summary_Details/2020_01/2020_01_22_00_Summary_Details.csv

数据特征描述

主要表和特征：
- Primary key：Tweet_ID
- Summary_Details：Language, Geolocation_cordinate, RT, Likes, Retweets, Country, Date_Created
- Summary_Hastag：Hashtag
- Summary_Mentions：Mentions
- Summary_Sentiment：Sentiment_Label, Logits_Neutral, Logits_Positive, Logits_Negative
- Summary_NER：NER_text, Start_Pos, End_Pos, NER_Label Prob
- Summary_Sentiment_ES：Sentiment_Label, Probability_pos
- Summary_NER_ES：NER_text, Start_Pos, End_Pos, NER_Label Prob

数据统计

总推文数：3,001,855,651
平均每日推文数：115,932

数据集引用

文献：Lopez, C. E., Gallemore, C., “An Augmented Multilingual Twitter dataset for studying the COVID-19 infodemic” Soc. Netw. Anal. Min. 11, 102 (2021). DOI: s13278-021-00825-0

数据集详细统计

每月统计摘要

年份	月份	每日平均原创推文	每日平均转推	每日平均推文总数	总原创推文	总转推	总推文	带地理位置的推文总数	最大转推数	最大点赞数
2020	1	5,947	30,576	35,501	1,958,346	7,852,504	9,810,850	1,773	674,151	334,802
2020	2	10,978	29,918	40,604	7,624,648	21,944,443	29,568,948	8,103	469,739	637,589
...	...	...	...	...	...	...	...	...	...	...
2021	6	37,931	84,426	122,204	28,310,536	63,462,978	91,773,014	22,669	3,194,460	697,980

此表展示了2020年至2021年每月推文的具体统计数据，包括原创推文、转推、总推文数以及带地理位置的推文数量等关键指标。

搜集汇总

数据集介绍

构建方式

COVID19_Tweets_Dataset数据集的构建始于2020年1月22日，通过Twitter的趋势话题和特定关键词进行持续的推文收集。截至2022年12月31日，已收集了超过30亿条推文。数据集的构建过程中，除了使用Twitter的API进行实时抓取外，还引入了Chen等人（2020）的数据集，通过去重和补充的方式丰富了数据内容。推文的收集不仅涵盖了原始推文，还包括了转发、点赞、地理位置等详细信息，确保数据的全面性和多样性。

使用方法

使用该数据集时，用户可以通过提供的CSV文件按小时、月份和表格进行数据检索。数据集的组织结构清晰，用户可以根据需求选择特定的推文特征进行分析。此外，数据集还提供了多种工具和方法，如TWARC Notebook和Hydrator，帮助用户从推文ID中恢复完整的推文数据。对于需要进行地理信息分析的用户，数据集还提供了与纽约时报COVID-19数据集的整合，便于进行更深入的疫情相关研究。

背景与挑战

背景概述

COVID19_Tweets_Dataset是由Lopez和Gallemore于2021年创建的，旨在研究COVID-19信息流行病（infodemic）的多语言推文数据集。该数据集自2020年1月22日起开始收集，涵盖了与新冠病毒相关的推文，截至2022年底，已累计收集超过30亿条推文。数据集通过Twitter的趋势话题和关键词进行采集，并结合Chen等人的数据集进行补充，以确保数据的多样性和完整性。该数据集不仅为研究COVID-19相关信息传播提供了宝贵的资源，还为多语言情感分析和命名实体识别等领域的研究提供了丰富的数据支持。

当前挑战

COVID19_Tweets_Dataset在构建过程中面临多项挑战。首先，推文数据的多样性和多语言特性使得情感分析和命名实体识别任务变得复杂，尤其是在处理非英语语言时，语言模型的准确性受到限制。其次，数据收集过程中存在不一致性，部分推文由于地理位置信息缺失或无法逆向地理编码而被排除，导致数据集的代表性受到影响。此外，随着时间的推移，推文的数量和内容不断变化，如何保持数据集的实时性和更新频率也是一个重要的挑战。最后，处理如此大规模的数据集需要高效的存储和计算资源，这对数据管理和分析提出了更高的要求。

常用场景

经典使用场景

COVID19_Tweets_Dataset 数据集的经典使用场景主要集中在社交媒体分析领域，尤其是对COVID-19相关信息的情感分析和命名实体识别。研究者可以通过该数据集分析公众对疫情的情绪反应，识别与疫情相关的热点话题和关键实体，从而为公共卫生政策的制定提供数据支持。此外，该数据集还可用于研究信息传播模式，探索社交媒体在疫情传播中的作用。

解决学术问题

该数据集解决了社交媒体在公共卫生事件中的信息传播和公众情绪反应的学术研究问题。通过分析推文中的情感倾向和命名实体，研究者可以深入理解公众对COVID-19的态度和行为模式，为疫情应对策略提供科学依据。此外，该数据集还为跨文化情感分析和多语言命名实体识别提供了丰富的语料，推动了相关领域的技术发展。

实际应用

在实际应用中，COVID19_Tweets_Dataset 数据集被广泛用于公共卫生监测、舆情分析和危机管理。例如，政府和卫生机构可以利用该数据集实时监测公众对疫苗接种、防疫措施等话题的反应，及时调整政策。企业则可以通过分析社交媒体上的疫情相关讨论，优化产品和服务策略。此外，该数据集还为学术界提供了宝贵的研究资源，支持了多项与社交媒体和公共卫生相关的研究项目。

数据集最近研究