COVID-19-Arabic-Tweets-Dataset
收藏github2023-04-17 更新2024-05-31 收录
下载链接:
https://github.com/SarahAlqurashi/COVID-19-Arabic-Tweets-Dataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含与新冠病毒COVID-19相关的阿拉伯语推特ID,收集时间为2020年1月1日至2020年5月30日。数据集通过Twitter搜索API收集,包含约600万条推特。
This dataset contains Arabic Twitter IDs associated with COVID-19, with a collection period from January 1, 2020 to May 30, 2020. Collected via the Twitter Search API, the dataset includes approximately 6 million tweets.
创建时间:
2020-04-08
原始信息汇总
COVID-19-Arabic-Tweets-Dataset
数据集概述
该数据集包含与新型冠状病毒COVID-19相关的阿拉伯语推文ID。数据集中的推文ID从2020年1月开始收集。使用Twitter搜索API收集包含特定阿拉伯语关键词的实时推文。为了遵守Twitter的服务条款,仅发布推文ID。此数据集仅供非商业研究使用。
数据组织
- 截至2021年1月26日,数据集包含2020年1月至2020年5月30日的推文。计划在未来几天内添加更多月份并持续更新。
- 推文ID文件存储在指示收集年份和月份的文件夹中。
- 推文ID文件包含推文ID,所有文件名具有相同的结构,前缀为“COVID19-tweetID-year-month-day”。
数据集收集
- 仅收集2020年1月1日至2020年5月30日的阿拉伯语推文。
keywords.txt文件包含更新后的关键词及其开始追踪的日期。Hashtags.txt文件包含追踪的标签、每个标签收集的推文数量及其开始追踪的日期。- 由于Twitter搜索API对检索数据量的限制,存在部分缺失数据。
- 在相关论文中提供了数据集的初步统计信息,这些统计信息将随数据集的每次更新自动更新。
数据集统计
以下统计数据截至2020年5月30日:
- 推文数量:6,086,085
- 带有地理位置的推文数量:3925
- 每日平均收集的推文数量:40573
数据集使用指南
使用TWARC Notebook
要从COVID-19-Arabic-Tweets-Dataset GitHub仓库中恢复推文ID,可以使用Hydrate_TweetIDs_Arabic_COVID19笔记本。
- 该笔记本在Google Colab上运行。
- 需要拥有Twitter开发者账户。
使用Hydrator
对于偏好图形用户界面(GUI)的用户,建议使用Hydrator。
许可
该数据集在Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International Public License下发布。使用此数据集即表示您同意许可条款、所有Twitter的服务条款,并引用我们的论文:https://arxiv.org/abs/2004.04315。
联系方式
如有任何建议或问题,请联系saraa.alqurashi@gmail.com或eaanazi(AT)uqu(dot)edu(dot)sa。
搜集汇总
数据集介绍

构建方式
COVID-19-Arabic-Tweets-Dataset的构建基于Twitter搜索API,通过抓取包含特定阿拉伯语关键词的推文ID,时间跨度为2020年1月至2020年5月。为遵守Twitter的服务条款,数据集仅发布推文ID,而非完整推文内容。数据按年份和月份组织存储,文件命名遵循统一结构,便于后续检索和分析。
特点
该数据集包含超过600万条阿拉伯语推文ID,其中3925条带有地理位置信息,日均推文量约为40573条。数据集特别关注与COVID-19相关的关键词和话题标签,提供了关键词和话题标签的追踪记录,并定期更新统计数据。此外,数据集还提供了初步的统计分析结果,为研究者提供了丰富的参考信息。
使用方法
用户可通过Hydrator或twarc工具将推文ID还原为完整推文内容。数据集提供了详细的指南,包括使用Google Colab运行的Twarc Notebook以及Hydrator的图形用户界面操作说明。使用前需注册Twitter开发者账号,并遵守CC BY-NC-SA 4.0许可协议及Twitter的服务条款。
背景与挑战
背景概述
COVID-19-Arabic-Tweets-Dataset 是一个专注于阿拉伯语推文的数据集,旨在捕捉与新型冠状病毒(COVID-19)相关的社交媒体讨论。该数据集由 Sarah Alqurashi 等研究人员于2020年创建,涵盖了从2020年1月至2020年5月期间发布的阿拉伯语推文。通过使用 Twitter 搜索 API,研究人员收集了包含特定关键词的推文 ID,以支持非商业研究用途。该数据集为研究 COVID-19 期间阿拉伯语社交媒体上的信息传播、情感分析和舆论动态提供了重要资源,对公共卫生信息传播和社交媒体研究领域具有深远影响。
当前挑战
该数据集在构建过程中面临多重挑战。首先,Twitter API 的数据检索限制导致部分时间段的推文缺失,影响了数据的完整性。其次,由于仅提供推文 ID,研究人员需借助第三方工具(如 Hydrator 或 Twarc)进行数据还原,增加了使用门槛。此外,数据集的语言限制为阿拉伯语,可能限制了其在多语言研究中的适用性。在解决领域问题时,该数据集需应对社交媒体数据的噪声问题,如重复推文、垃圾信息和非相关内容的过滤,以确保分析结果的准确性。这些挑战为数据集的扩展和应用带来了技术和方法上的复杂性。
常用场景
经典使用场景
COVID-19-Arabic-Tweets-Dataset数据集在社交媒体分析领域具有重要应用,尤其是在研究阿拉伯语用户在COVID-19疫情期间的言论和行为模式方面。研究者可以通过该数据集分析阿拉伯语推文中的情感倾向、信息传播路径以及公众对疫情的反应。这些分析有助于理解社交媒体在公共卫生事件中的角色,并为政策制定者提供数据支持。
解决学术问题
该数据集解决了在COVID-19疫情期间,阿拉伯语社交媒体数据的稀缺性问题。通过提供大量阿拉伯语推文ID,研究者能够深入探讨阿拉伯语用户在疫情期间的信息传播、情感表达和社会互动模式。这不仅填补了阿拉伯语社交媒体研究的空白,还为跨文化比较研究提供了宝贵的数据资源。
衍生相关工作
基于COVID-19-Arabic-Tweets-Dataset,研究者已开展了多项经典工作。例如,一些研究利用该数据集开发了阿拉伯语情感分析模型,用于识别推文中的情感倾向;另一些研究则专注于信息传播网络的构建,揭示了阿拉伯语用户在疫情期间的信息传播路径。这些工作不仅推动了阿拉伯语自然语言处理技术的发展,还为社交媒体分析领域提供了新的研究视角。
以上内容由遇见数据集搜集并总结生成



