COVID-19-Arabic-Tweets-Dataset

github2023-04-17 更新2024-05-31 收录

下载链接：

https://github.com/SarahAlqurashi/COVID-19-Arabic-Tweets-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含与新冠病毒COVID-19相关的阿拉伯语推特ID，收集时间为2020年1月1日至2020年5月30日。数据集通过Twitter搜索API收集，包含约600万条推特。

This dataset contains Arabic Twitter IDs associated with COVID-19, with a collection period from January 1, 2020 to May 30, 2020. Collected via the Twitter Search API, the dataset includes approximately 6 million tweets.

创建时间：

2020-04-08

原始信息汇总

COVID-19-Arabic-Tweets-Dataset

数据集概述

该数据集包含与新型冠状病毒COVID-19相关的阿拉伯语推文ID。数据集中的推文ID从2020年1月开始收集。使用Twitter搜索API收集包含特定阿拉伯语关键词的实时推文。为了遵守Twitter的服务条款，仅发布推文ID。此数据集仅供非商业研究使用。

数据组织

截至2021年1月26日，数据集包含2020年1月至2020年5月30日的推文。计划在未来几天内添加更多月份并持续更新。
推文ID文件存储在指示收集年份和月份的文件夹中。
推文ID文件包含推文ID，所有文件名具有相同的结构，前缀为“COVID19-tweetID-year-month-day”。

数据集收集

仅收集2020年1月1日至2020年5月30日的阿拉伯语推文。
keywords.txt文件包含更新后的关键词及其开始追踪的日期。Hashtags.txt文件包含追踪的标签、每个标签收集的推文数量及其开始追踪的日期。
由于Twitter搜索API对检索数据量的限制，存在部分缺失数据。
在相关论文中提供了数据集的初步统计信息，这些统计信息将随数据集的每次更新自动更新。

数据集统计

以下统计数据截至2020年5月30日：

推文数量：6,086,085
带有地理位置的推文数量：3925
每日平均收集的推文数量：40573

数据集使用指南

使用TWARC Notebook

要从COVID-19-Arabic-Tweets-Dataset GitHub仓库中恢复推文ID，可以使用Hydrate_TweetIDs_Arabic_COVID19笔记本。

该笔记本在Google Colab上运行。
需要拥有Twitter开发者账户。

使用Hydrator

对于偏好图形用户界面(GUI)的用户，建议使用Hydrator。

许可

该数据集在Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International Public License下发布。使用此数据集即表示您同意许可条款、所有Twitter的服务条款，并引用我们的论文：https://arxiv.org/abs/2004.04315。

联系方式

如有任何建议或问题，请联系saraa.alqurashi@gmail.com或eaanazi(AT)uqu(dot)edu(dot)sa。

搜集汇总

数据集介绍

构建方式

COVID-19-Arabic-Tweets-Dataset的构建基于Twitter搜索API，通过抓取包含特定阿拉伯语关键词的推文ID，时间跨度为2020年1月至2020年5月。为遵守Twitter的服务条款，数据集仅发布推文ID，而非完整推文内容。数据按年份和月份组织存储，文件命名遵循统一结构，便于后续检索和分析。

特点

该数据集包含超过600万条阿拉伯语推文ID，其中3925条带有地理位置信息，日均推文量约为40573条。数据集特别关注与COVID-19相关的关键词和话题标签，提供了关键词和话题标签的追踪记录，并定期更新统计数据。此外，数据集还提供了初步的统计分析结果，为研究者提供了丰富的参考信息。

使用方法

用户可通过Hydrator或twarc工具将推文ID还原为完整推文内容。数据集提供了详细的指南，包括使用Google Colab运行的Twarc Notebook以及Hydrator的图形用户界面操作说明。使用前需注册Twitter开发者账号，并遵守CC BY-NC-SA 4.0许可协议及Twitter的服务条款。

背景与挑战

背景概述

COVID-19-Arabic-Tweets-Dataset 是一个专注于阿拉伯语推文的数据集，旨在捕捉与新型冠状病毒（COVID-19）相关的社交媒体讨论。该数据集由 Sarah Alqurashi 等研究人员于2020年创建，涵盖了从2020年1月至2020年5月期间发布的阿拉伯语推文。通过使用 Twitter 搜索 API，研究人员收集了包含特定关键词的推文 ID，以支持非商业研究用途。该数据集为研究 COVID-19 期间阿拉伯语社交媒体上的信息传播、情感分析和舆论动态提供了重要资源，对公共卫生信息传播和社交媒体研究领域具有深远影响。

当前挑战

该数据集在构建过程中面临多重挑战。首先，Twitter API 的数据检索限制导致部分时间段的推文缺失，影响了数据的完整性。其次，由于仅提供推文 ID，研究人员需借助第三方工具（如 Hydrator 或 Twarc）进行数据还原，增加了使用门槛。此外，数据集的语言限制为阿拉伯语，可能限制了其在多语言研究中的适用性。在解决领域问题时，该数据集需应对社交媒体数据的噪声问题，如重复推文、垃圾信息和非相关内容的过滤，以确保分析结果的准确性。这些挑战为数据集的扩展和应用带来了技术和方法上的复杂性。

常用场景

经典使用场景

COVID-19-Arabic-Tweets-Dataset数据集在社交媒体分析领域具有重要应用，尤其是在研究阿拉伯语用户在COVID-19疫情期间的言论和行为模式方面。研究者可以通过该数据集分析阿拉伯语推文中的情感倾向、信息传播路径以及公众对疫情的反应。这些分析有助于理解社交媒体在公共卫生事件中的角色，并为政策制定者提供数据支持。

解决学术问题

该数据集解决了在COVID-19疫情期间，阿拉伯语社交媒体数据的稀缺性问题。通过提供大量阿拉伯语推文ID，研究者能够深入探讨阿拉伯语用户在疫情期间的信息传播、情感表达和社会互动模式。这不仅填补了阿拉伯语社交媒体研究的空白，还为跨文化比较研究提供了宝贵的数据资源。

衍生相关工作

基于COVID-19-Arabic-Tweets-Dataset，研究者已开展了多项经典工作。例如，一些研究利用该数据集开发了阿拉伯语情感分析模型，用于识别推文中的情感倾向；另一些研究则专注于信息传播网络的构建，揭示了阿拉伯语用户在疫情期间的信息传播路径。这些工作不仅推动了阿拉伯语自然语言处理技术的发展，还为社交媒体分析领域提供了新的研究视角。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集