Twitter Dataset on the Russo-Ukrainian War
收藏Mendeley Data2024-05-17 更新2024-06-29 收录
下载链接:
https://zenodo.org/records/8431047
下载链接
链接失效反馈官方服务:
资源简介:
On 24 February 2022, Russia invaded Ukraine, also known now as the Russo-Ukrainian War. We obtained our dataset through Twitter API from 23 February of 2022 until 23 June of 2023. The collected dataset has 127.275.386 tweets, shared in the form of anonymized text, where the tweet/user IDs and user mentions are anonymized and do not provide any personal information. The provided dataset contains user discussion in more than 70 languages, where the 20 most popular are : 'eng', 'fr', 'de', 'mix', 'it', 'es', 'ja', 'ru', 'pl', 'uk', 'tr', 'th', 'hi', 'qme', 'qht', 'nl', 'fi', 'ar', 'zh' and 'pt'. For the purpose of the information integrity tweets are separated and stored in different files ordered by creation date. The provided dataset is shared for further research purposes. Additionally, we provide the list of tweets IDs at the GitHub repository which can be retracted via Twitter API. Furthermore, we also manage to execute some initial analysis including: volume/activity, hashtags popularity, sentiment and military intelligence and publish the results in the web portal.
2022年2月24日,俄罗斯入侵乌克兰,该军事冲突如今也被称为俄乌冲突(Russo-Ukrainian War)。本数据集通过推特API(Twitter API)采集,采集时间范围为2022年2月23日至2023年6月23日。本次采集得到的数据集共包含127,275,386条推文,以匿名化文本形式共享:推文ID、用户ID以及用户提及信息均已完成匿名化处理,不会泄露任何个人身份信息。
本数据集涵盖超过70种语言的用户讨论内容,其中使用量排名前20的语言代码及对应语言为:英语(eng)、法语(fr)、德语(de)、混合语(mix)、意大利语(it)、西班牙语(es)、日语(ja)、俄语(ru)、波兰语(pl)、乌克兰语(uk)、土耳其语(tr)、泰语(th)、印地语(hi)、qme、qht、荷兰语(nl)、芬兰语(fi)、阿拉伯语(ar)、中文(zh)以及葡萄牙语(pt)。
为保障信息完整性,所有推文将按创建时间拆分并存储至不同文件中。本数据集仅用于学术研究等后续探索用途。
此外,我们在GitHub仓库中提供了推文ID列表,可通过Twitter API取回原始数据。同时,我们还完成了若干初步分析工作,包括内容体量/活跃度统计、话题标签(hashtags)热度分析、情感倾向分析以及军事情报相关分析,并将分析结果发布至官方门户网站。
创建时间:
2024-05-10



