2022年俄乌冲突推特数据集
收藏arXiv2022-08-02 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2208.04903v1
下载链接
链接失效反馈官方服务:
资源简介:
本数据集由哈马德·本·哈利法大学信息与计算技术部创建,收集了2022年1月27日至3月23日期间,与俄乌冲突相关的5,583,168条推文,涉及1,858,605个独特用户。数据集内容丰富,包括用户情感、关键词使用频率等,通过统计分析和基于方面的情感分析(ABSA)揭示了冲突期间公众情感的变化和异常模式。该数据集主要用于研究社交媒体上的信息传播、公众情感分析及潜在的虚假信息活动,为理解冲突期间的社会动态提供了重要数据支持。
This dataset was developed by the Department of Information and Computing Technology at Hamad Bin Khalifa University. It contains 5,583,168 tweets related to the Russia-Ukraine conflict, collected between January 27 and March 23, 2022, involving 1,858,605 unique users. The dataset includes comprehensive content such as user sentiment and keyword usage frequency. Statistical analysis and aspect-based sentiment analysis (ABSA) were employed to uncover shifts in public sentiment and anomalous patterns during the conflict. This dataset is primarily utilized for research on social media information dissemination, public sentiment analysis, and potential disinformation activities, providing critical data support for understanding social dynamics during the Russia-Ukraine conflict.
提供机构:
信息与计算技术部,科学与工程学院,哈马德·本·哈利法大学,卡塔尔基金会,多哈,卡塔尔
创建时间:
2022-08-02
搜集汇总
数据集介绍

构建方式
在社交媒体分析领域,捕捉特定事件期间公众情绪的演变至关重要。本数据集通过Twitter API v2的“tweets/search/all”端点系统性地收集了2022年俄乌冲突相关的推文。数据收集时间窗口设定在冲突升级前后各一个月,即2022年1月27日至3月23日,并采用一组核心关键词(如“zelensky”、“ukraine”、“russia”、“putin”)进行检索。为确保数据质量与聚焦原创内容,查询中排除了转推、回复、引用以及包含链接或多媒体附件的推文,且仅限英文文本。最终,该数据集汇集了超过558万条推文,源自约186万独立用户,为深入分析冲突期间的舆论动态奠定了坚实基础。
特点
该数据集在冲突研究领域展现出鲜明的特色。其规模庞大,覆盖了冲突关键期前后两个月的密集讨论,能够有效捕捉舆论的时序演变。数据经过精细预处理,包括清理无关内容及对用户账户进行多维度分类,如可信账户、新生账户、异常账户等,这为探究不同用户群体的行为模式提供了结构化的分析框架。尤为突出的是,研究首次将方面级情感分析技术应用于此类冲突数据,能够针对“普京”、“泽连斯基”、“北约”等特定实体提取细粒度的情感极性,从而超越传统情感分析,揭示公众对冲突中各方的复杂、差异化态度,为识别潜在的信息操纵模式提供了新颖视角。
使用方法
该数据集为社会科学与计算语言学交叉研究提供了丰富资源。研究者可首先利用其进行定量分析,例如追踪关键词提及频率、推文发布量的时间序列变化,以量化冲突事件对线上讨论热度的冲击。进而,可结合数据集提供的用户分类信息,比较不同类别账户(如异常账户与常规账户)在讨论参与度和内容特征上的差异。数据集的核心价值在于支持基于方面级情感分析的定性研究,通过分析针对特定实体的情感趋势演变,可以深入解读公众舆论的转向、群体情绪的极化现象,并探索其中可能存在的异常模式,为检测和验证潜在的虚假信息传播活动提供数据驱动的证据。
背景与挑战
背景概述
社交媒体数据在当代信息生态系统中占据核心地位,尤其在重大地缘政治事件期间,成为公众舆论形成与传播的关键场域。2022年俄乌冲突推特数据集由哈马德·本·哈利法大学的研究团队于冲突爆发前后构建,覆盖了2022年1月27日至3月23日期间超过550万条推文,涉及180余万独立用户。该数据集旨在通过基于方面的情感分析等自然语言处理技术,深入剖析英语世界对冲突的公众情绪演变,并探索潜在虚假信息活动的数字痕迹。其核心研究问题聚焦于冲突期间推特平台上的情感动态、用户行为模式以及是否存在协调性的宣传运动,为计算社会科学与数字媒体研究提供了宝贵的实证基础。
当前挑战
该数据集致力于解决冲突期间在线社交网络舆论分析的复杂挑战,其核心在于精准捕捉与解读公众对特定实体如“普京”、“泽连斯基”、“北约”的情感倾向,并识别非常规账户行为所暗示的虚假信息活动。构建过程中的挑战首先体现在数据采集的严格筛选,需通过精心设计的关键词与时间窗口平衡覆盖范围与主题相关性,同时排除转发、回复及非文本内容以聚焦原始观点。其次,在情感分析层面,基于方面的情感分析技术尚不成熟,存在约10%的方面词识别缺失,且难以区分同一情感类别下的细微情绪差异,限制了深层语义解读。此外,用户分类依赖于有限的元数据指标,对机器人账户与协同行为的检测精度构成制约,而平台政策限制也导致数据集无法公开共享,影响了研究的可复现性。
常用场景
经典使用场景
在社交媒体分析领域,2022年俄乌冲突推特数据集为研究者提供了一个深入探究重大国际事件中公众情绪演变的宝贵资源。该数据集通过收集冲突前后两个月内超过550万条英文推文,结合基于方面的情感分析技术,能够精细刻画用户对关键实体如“普京”、“泽连斯基”、“北约”、“乌克兰”和“俄罗斯”的情感态度变化。这一经典使用场景不仅揭示了冲突期间推特平台上公众舆论的动态轨迹,还为识别异常账户行为和潜在虚假信息传播模式提供了数据基础。
解决学术问题
该数据集有效解决了社交媒体挖掘中的若干核心学术问题,特别是在虚假信息检测和公众情绪建模方面。通过应用基于方面的情感分析和统计方法,研究能够量化冲突期间用户情感趋势,并检验关于大规模虚假信息活动的假设。例如,分析结果挑战了主流媒体关于俄乌冲突中存在广泛虚假宣传的论断,同时揭示了异常账户与普通用户在情感表达上的显著差异。这些发现为理解在线社交网络在危机事件中的角色提供了实证依据,推动了信息可信度评估和情感计算方法的进一步发展。
衍生相关工作
围绕该数据集衍生的经典工作主要集中在社交媒体数据挖掘技术的比较与优化上。例如,后续研究可能探索基于方面的情感分析与其他自然语言处理技术在冲突事件分析中的效能差异,或开发更精细的用户分类模型以区分机器人账户与真实用户。此外,该数据集也激发了多语言社交媒体分析的扩展研究,旨在比较不同语言社群对同一事件的情感反应,从而深化对跨文化舆论动态的理解。这些衍生工作共同推动了计算社会科学在危机传播研究中的应用边界。
以上内容由遇见数据集搜集并总结生成



