The Invasion of Ukraine Viewed through TikTok: A Dataset

Name: The Invasion of Ukraine Viewed through TikTok: A Dataset
Creator: 麦吉尔大学
Published: 2023-05-12 04:04:37
License: 暂无描述

arXiv2023-05-12 更新2024-06-21 收录

下载链接：

https://doi.org/10.5281/zenodo.7926959

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集名为‘The Invasion of Ukraine Viewed through TikTok: A Dataset’，由麦吉尔大学创建，专注于2022年乌克兰入侵事件在TikTok上的表现。数据集包含约9500个与乌克兰入侵相关的视频，以及440万条评论，来自约260万名用户。创建过程中，研究团队通过识别与冲突相关的标签和关键词，收集了核心视频集，并进一步编译了这些视频的评论。该数据集旨在支持对TikTok在重大地缘政治事件中的作用及其对公众舆论影响的深入研究，特别是在社交媒体上的语言和社会互动动态。

This dataset, titled "The Invasion of Ukraine Viewed through TikTok: A Dataset", was developed by McGill University, focusing on the portrayal of the 2022 Russian invasion of Ukraine on TikTok. It contains approximately 9,500 videos related to the Ukraine invasion, along with 4.4 million comments sourced from roughly 2.6 million users. During the dataset's development, the research team identified conflict-related hashtags and keywords to collect the core video corpus, and further compiled the comments associated with these videos. This dataset aims to support in-depth research on the role of TikTok during major geopolitical events and its impact on public opinion, particularly regarding the dynamics of linguistic and social interactions on social media platforms.

提供机构：

麦吉尔大学

创建时间：

2023-01-20

搜集汇总

数据集介绍

构建方式

在社交平台TikTok日益成为全球重大事件信息枢纽的背景下，本研究聚焦于2022年乌克兰入侵事件，构建了一个大规模的多模态语言与交互数据集。数据集构建采用关键词与标签结合的搜索策略，通过种子标签的初始定性探索与雪球式扩展，收集了包括乌克兰语、俄语及英语在内的23个搜索词条下的视频。为突破TikTok仅返回热门内容的限制，研究同时利用通用搜索功能与冷门标签，以获取更广泛的视频视图分布。随后，基于入侵相关性的严格定义，通过人工标注与RoBERTa语言模型微调，对视频进行二分类过滤，最终获得约9500个相关视频及其对应的440万条评论与260万用户数据。

特点

该数据集的核心特点在于其跨语言、跨时间尺度的丰富性，揭示了TikTok平台在重大地缘政治事件中独有的社交动态。数据覆盖从入侵前夕至2023年的持续时段，呈现出语言使用随时间演变的宏观模式，如乌克兰语使用者的语言迁移现象。在中观层面，通过主题建模发现平台内涌现出多元叙事，包括主流媒体未充分关注的独特议题（如阿拉斯加与入侵的关联）。此外，数据集暴露了TikTok与Twitter在机器人检测上的根本差异：现有Twitter机器人分类器在该平台上几乎失效，99.2%的账户被误判为机器人，凸显了平台特性对研究方法论的深刻挑战。

使用方法

数据集以唯一标识符CSV文件形式开源发布，配套PyTok库与自动化脚本，研究者可通过重新爬取完整重建数据集。使用流程包括：首先利用PyTok的JSON解析函数将原始数据提取为CSV格式，随后可对视频描述、评论文本及用户元数据（如关注数、粉丝数、视频数）进行多维度分析。数据集特别适用于跨平台比较研究，例如对比Twitter与TikTok在战争叙事构建、信息传播模式及机器人行为上的差异。研究者亦可结合时间戳进行语言演变的时间序列分析，或利用主题模型探索平台内独特的舆论生态。需注意，受限于TikTok搜索API的模糊性与时序偏好，数据集在代表性上存在固有偏差，建议结合定性方法进行交叉验证。

背景与挑战

背景概述

在社交媒体生态系统中，TikTok作为拥有超过十亿活跃用户的短视频平台，已深刻嵌入全球公众的信息获取与社会生活。2022年俄罗斯入侵乌克兰事件，被众多媒体称为“第一场TikTok战争”，标志着该平台首次大规模介入地缘政治叙事。然而，尽管TikTok在塑造年轻一代对重大事件的认知方面扮演关键角色，其内部的社交动态、语言演变以及信息传播机制仍鲜有系统性的量化研究。为此，来自麦吉尔大学计算机科学系与政治学系的Benjamin Steel、Sara Parker和Derek Ruths于2023年构建了“The Invasion of Ukraine Viewed through TikTok: A Dataset”，旨在填补这一研究空白。该数据集聚焦于围绕俄乌冲突的TikTok视频描述、评论及用户统计信息，总计收集约9500条相关视频、440万条评论及260万用户数据，为深入剖析该平台在重大地缘政治事件中的角色提供了关键资源。

当前挑战

该数据集面临的核心挑战源自TikTok平台独特的技术与生态限制。首先，TikTok缺乏广泛可用的研究API，且其搜索功能存在显著局限：标签搜索仅返回约1000条最热门视频，通用搜索则因模糊算法混入大量无关内容，如搜索“nato”时出现“naruto”动漫结果。其次，平台不提供历史搜索能力，导致数据集存在时间偏差，且约30%的视频在采集后六个月内已不可访问，凸显内容的短暂性。此外，现有基于Twitter的机器人检测方法在TikTok上完全失效，99.8%的账号被误判为机器人，揭示了跨平台工具迁移的严峻挑战。最后，由于无法获取TikTok的整体用户分布，该数据集的代表性难以评估，亟需建立适用于此类超算法驱动平台的数据采集与抽样最佳实践。

常用场景

经典使用场景

该数据集聚焦于2022年俄乌冲突期间TikTok平台上的视频描述、评论及用户统计数据，为研究短视频平台在重大地缘政治事件中的角色提供了独特素材。其经典使用场景在于分析平台上的语言动态与社交互动模式，例如通过词频与话题建模揭示不同语言群体的注意力变迁，以及乌克兰语与俄语使用比例的演变趋势。研究者可借此探究TikTok如何塑造公众对冲突的认知，尤其是年轻群体将其作为主要新闻来源的现象，从而填补社交媒体研究长期忽视TikTok的空白。

解决学术问题

该数据集解决了多个关键学术问题。首先，它弥补了社交媒体研究在TikTok平台上的严重缺失，传统研究多集中于Twitter和Facebook，而TikTok的算法驱动与去中心化结构要求全新的数据采集方法。其次，它揭示了宏观与中观层面的社会动态，如语言使用的时间序列变化和语义聚类，展现了平台内复杂的政治表达与信息传播机制。此外，数据集还暴露了现有机器人检测方法在跨平台应用中的失效问题，强调了针对TikTok定制化工具开发的紧迫性，为后续研究提供了基准与挑战。

衍生相关工作

该数据集衍生了一系列开创性工作。其采集方法论——结合浏览器自动化与API请求的混合策略——为后续TikTok数据研究树立了范例。基于该数据，研究者开发了多语言主题模型（如BERTopic）以识别冲突相关议题的演化，并验证了Twitter机器人分类器在TikTok上的失效，催生了针对短视频平台的新型检测工具。此外，数据集中的时间序列分析启发了对语言迁移（如乌克兰语使用增长）的量化研究，而“阿拉斯加”等独特话题的发现则推动了平台特异性话语分析。这些工作共同拓展了计算社会科学在非传统平台上的应用边界。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集