Russia-Ukraine Crisis Weibo (RUW) dataset
收藏arXiv2022-03-10 更新2024-06-21 收录
下载链接:
https://github.com/yrf1/RussiaUkraine_weibo_dataset
下载链接
链接失效反馈官方服务:
资源简介:
Russia-Ukraine Crisis Weibo (RUW)数据集是由伊利诺伊大学厄巴纳-香槟分校的研究人员创建,专注于2022年俄乌危机期间的微博用户帖子和评论,包含超过350万条数据。数据集内容丰富,涵盖用户信息、帖子内容及其元数据,以及帖子下的评论信息。创建过程中,研究者利用weibo-scraper库收集数据,并手动筛选了120个活跃用户进行数据收集。该数据集主要用于研究信息传播、事件理解和虚假信息检测等领域,旨在帮助社会更好地理解和应对危机事件。
The Russia-Ukraine Crisis Weibo (RUW) dataset was developed by researchers from the University of Illinois Urbana-Champaign. It focuses on Weibo posts and comments from users during the 2022 Russia-Ukraine conflict, containing over 3.5 million data records. The dataset has comprehensive content, covering user profiles, post content and their associated metadata, as well as comment information under each post. During the dataset creation process, researchers adopted the weibo-scraper library for data collection, and manually selected 120 active users for targeted data curation. This dataset is primarily utilized for research in fields such as information dissemination, event understanding and disinformation detection, aiming to help society better comprehend and respond to crisis events.
提供机构:
伊利诺伊大学厄巴纳-香槟分校
创建时间:
2022-03-10
搜集汇总
数据集介绍

构建方式
在2022年俄乌冲突持续发酵的背景下,社交媒体平台成为公众获取信息与表达观点的重要场域。为填补微博平台在危机事件研究中的空白,研究者基于weibo-scraper工具,精心筛选了120个在热门话题中活跃发布相关内容的公共用户档案,并采用一阶扩展策略,将这些用户帖子下的评论者纳入采集范围。数据收集自2022年2月最后一周启动,同时回溯了冲突爆发前三个月的内容,以确保时间维度的完整性。最终,该数据集收录了超过27,341条微博帖文及350余万条评论,涵盖107,797名独立用户,关键词分布以“乌克兰”“俄罗斯”等实体为主,为跨平台危机分析提供了宝贵资源。
特点
该数据集的核心特色在于其跨平台对比研究的潜力。与已有的Twitter数据集不同,RUW数据集聚焦于以中文为主要语言的微博生态,反映了受不同规则约束的用户行为模式。数据包含用户档案、帖文内容、多媒体附件及互动元数据(如点赞与分享数),结构丰富。词云分析显示,“局势”“制裁”等词汇的高频出现,揭示了用户讨论聚焦于冲突最新动态与地缘政治反响。此外,数据集的持续更新机制使其能够捕捉事件演进的动态性,为研究信息传播的时序偏差提供了独特视角。
使用方法
借助RUW数据集,研究者可探索多种自然语言处理任务,例如事件聚类、虚假谣言检测以及新闻分析方法在微博与Twitter平台间的可迁移性评估。数据集以JSON格式存储,可通过GitHub仓库公开获取,并支持按用户档案或关键词进行查询。建议用户在使用时注意跨文化语境下的极化观点,保持客观分析态度,同时结合时间戳信息进行纵向研究,以揭示危机事件中信息扩散模式的演变规律。
背景与挑战
背景概述
社交媒体平台在危机事件中扮演着信息传播与公众舆论汇聚的关键角色,尤其是以中文为主导的新浪微博,作为全球第二大新闻导向型社交网络,其用户生成内容蕴含着丰富的地缘政治话语与情感表达。2022年2月爆发的俄乌冲突引发了全球范围内的广泛关注,然而现有研究多聚焦于英文推特平台,缺乏针对中文社交媒体语境下危机事件数据的系统性构建。为此,伊利诺伊大学厄巴纳-香槟分校的Yi R. Fung与Heng Ji于2022年3月发布了Russia-Ukraine Crisis Weibo (RUW)数据集。该数据集首次大规模收录了超过3.5百万条微博帖子与评论,涵盖107,797位活跃用户,核心研究问题在于探索跨平台、跨语言的信息传播模式、复杂事件理解与虚假信息检测等任务的模型可迁移性。RUW数据集不仅填补了中文社交媒体危机语料的空白,更为计算社会科学与自然语言处理领域提供了宝贵的研究资源。
当前挑战
RUW数据集面临的核心挑战体现在领域问题与构建过程两个层面。在领域问题方面,俄乌冲突涉及高度动态的地缘政治叙事、多源信息交织与观点极化,现有模型面临显著的历时性偏差与跨平台泛化困境,即基于推特训练的模型难以直接迁移至微博,因两者在语言、用户行为及内容审核规则上存在本质差异,这限制了事件聚类、谣言检测与舆论分析等任务的鲁棒性。在构建过程中,数据采集面临持续更新的时效性挑战——冲突仍在演进,用户活跃度与话题焦点随时变化,需人工维护活跃用户列表并回溯历史数据;同时,微博平台对爬取策略的限制与隐私伦理考量增加了数据完整性保障的难度,此外,多模态内容(如图片、视频)的整合与中文关键词歧义消解亦对后续标注与模型评估提出更高要求。
常用场景
经典使用场景
俄乌冲突作为当代国际关系中的重大地缘政治事件,其引发的信息洪流在中文社交媒体平台上呈现出独特的传播生态。RUW数据集聚焦于微博这一全球第二大新闻导向社交平台,收录了超过350万条用户帖文与评论,涵盖从冲突爆发前三个月至持续更新期间的完整时间跨度。该数据集最经典的使用场景在于对危机事件中中文网络舆论场的多维度解析,研究者可借此展开事件聚类分析,通过关键词分布与文本挖掘技术,系统性地追踪公众对战争态势、领导人动态、国际制裁等议题的关注焦点演变,从而揭示跨文化语境下危机传播的独特规律。
实际应用
在实际应用层面,RUW数据集为舆情监测与危机管理提供了切实可行的技术支撑。政府机构与媒体组织可借助该数据集训练的中文模型,实时追踪俄乌冲突相关话题在微博上的情绪波动、谣言传播路径及观点极化趋势。例如,通过分析'制裁'、'局势'等高频关键词的共现网络,能够快速识别公众对国际政策反应的敏感节点。此外,该数据集的持续更新特性使其适用于动态预警系统的开发,有助于在类似地缘冲突事件中提前捕捉非理性情绪的蔓延信号,为决策者制定精准的舆论引导策略提供数据驱动的参考依据。
衍生相关工作
RUW数据集的发布催生了一系列具有影响力的衍生研究工作。研究者基于该语料库开展了跨平台传播模式对比分析,系统揭示了微博与Twitter在俄乌冲突议题上信息扩散的异质性特征。在虚假信息检测领域,学者利用RUW数据集训练了针对中文语境下的谣言识别模型,有效提升了对抗性误导信息的检测精度。此外,该数据集还推动了事件演化图谱构建技术的发展,通过时序建模与语义聚类,实现了对冲突关键节点(如军事行动升级、国际制裁加码)的自动识别与话题链重构,为复杂事件理解领域提供了可复用的方法论框架。
以上内容由遇见数据集搜集并总结生成



