Telegram Pro-Kremlin and Anti-Kremlin Channels Dataset
收藏arXiv2025-01-04 更新2025-01-07 收录
下载链接:
http://arxiv.org/abs/2501.01884v1
下载链接
链接失效反馈官方服务:
资源简介:
该数据集由乔治亚州立大学等研究机构创建,涵盖了俄罗斯与乌克兰冲突期间,亲克里姆林宫和反克里姆林宫的Telegram频道内容。数据集包括404个亲克里姆林宫频道的4,109,645条帖子和114个反克里姆林宫频道的1,117,768条帖子,总计超过522万条数据。数据收集时间跨度为2020年12月21日至2023年4月30日,涵盖了冲突前后的关键时期。数据集内容丰富,包括文本、图像、视频等多种媒体形式,以及帖子的时间戳、浏览量、转发次数等详细属性。该数据集为研究俄罗斯政治话语动态、公众意见形成及数字平台在政治冲突中的作用提供了宝贵资源,尤其适用于分析社交媒体在信息传播和公众动员中的角色。
This dataset was developed by research institutions including Georgia State University, covering content from pro-Kremlin and anti-Kremlin Telegram channels during the Russia-Ukraine conflict. It contains 4,109,645 posts from 404 pro-Kremlin Telegram channels and 1,117,768 posts from 114 anti-Kremlin channels, totaling over 5.22 million posts. The data collection period spans from December 21, 2020 to April 30, 2023, covering critical periods before and after the outbreak of the Russia-Ukraine conflict. The dataset includes rich content: multiple media formats such as text, images and videos, as well as detailed attributes including post timestamps, view counts and repost counts. This dataset provides a valuable resource for researching the dynamics of Russian political discourse, the formation of public opinion and the role of digital platforms in political conflicts, and is especially suitable for analyzing the role of social media in information dissemination and public mobilization.
提供机构:
乔治亚州立大学, 马萨诸塞大学达特茅斯分校, 赖特州立大学, 阿肯色大学小石城分校
创建时间:
2025-01-04
搜集汇总
数据集介绍

构建方式
该数据集通过系统化的方法从TGStat网站筛选了具有至少10,000订阅者的俄罗斯政治Telegram频道,并手动标注为亲克里姆林、反克里姆林、中立及其他类别。数据收集时间跨度为2020年12月21日至2023年4月30日,涵盖了俄罗斯入侵乌克兰前后的一年多时间。数据集包含404个亲克里姆林频道和114个反克里姆林频道的帖子,总计超过520万条。数据收集过程中,通过多模态内容(文本、图像、视频)和用户互动指标(如浏览量、转发量、表情反应等)的详细记录,确保了数据的全面性和可分析性。
特点
该数据集的特点在于其广泛覆盖了俄罗斯入侵乌克兰期间Telegram平台上亲克里姆林和反克里姆林频道的通信动态。数据集不仅包含大量的文本内容,还记录了帖子的多模态特征(如图片、视频)以及用户互动数据(如浏览量、转发量、表情反应等)。此外,数据集通过n-gram分析揭示了不同频道在词汇和主题上的差异,为研究政治传播中的语言策略提供了丰富的素材。数据集的多样性和时间跨度使其成为分析在线政治话语和用户行为的宝贵资源。
使用方法
该数据集可通过Figshare平台访问,文件格式为CSV。研究人员可以利用该数据集进行多种分析,例如比较亲克里姆林和反克里姆林频道的宣传策略、研究用户互动模式、或应用自然语言处理技术揭示政治传播中的语言特征。数据集中的多模态内容和用户互动指标为研究社交媒体上的信息传播和用户行为提供了丰富的数据支持。由于数据集仅包含文本和元数据,研究人员需注意其多媒体分析的局限性,但这也使得数据处理更加高效和可扩展。
背景与挑战
背景概述
Telegram Pro-Kremlin and Anti-Kremlin Channels Dataset 是由 Georgia State University 等机构的研究团队于2024年发布的一个重要数据集,旨在捕捉俄罗斯与乌克兰冲突期间,Telegram平台上亲克里姆林宫和反克里姆林宫频道的传播动态。该数据集涵盖了从2020年12月到2023年4月期间404个亲克里姆林宫频道和114个反克里姆林宫频道的超过500万条帖子。研究团队通过TGStat网站筛选出具有影响力的频道,并对其内容进行了详细的标注和分析。该数据集为研究政治传播、信息战以及社交媒体在冲突中的作用提供了宝贵的资源,尤其为分析亲克里姆林宫和反克里姆林宫叙事在数字平台上的传播策略和影响提供了数据支持。
当前挑战
该数据集在构建过程中面临多重挑战。首先,Telegram平台的内容审核政策较为宽松,导致大量虚假信息和宣传内容混杂其中,如何准确区分真实信息与虚假信息成为一大难题。其次,数据收集过程中需要处理海量的多模态数据(如文本、图片、视频等),尤其是视频文件的大小和数量给数据存储和处理带来了技术挑战。此外,频道的分类和标注依赖于人工判断,尽管通过Cohen’s kappa系数验证了标注的一致性,但仍存在主观偏差的风险。最后,由于Telegram的隐私保护机制,数据集无法包含实际的图像和视频内容,仅以占位符形式存在,这限制了多模态分析的深度。这些挑战不仅影响了数据的完整性和分析精度,也为未来研究提出了更高的技术要求。
常用场景
经典使用场景
Telegram Pro-Kremlin and Anti-Kremlin Channels Dataset 在俄乌冲突期间,Telegram 作为信息传播的重要平台,成为亲克里姆林宫和反克里姆林宫叙事的主要战场。该数据集收录了冲突前后一年内的404个亲克里姆林宫频道和114个反克里姆林宫频道的数百万条帖子,涵盖了文本、图片、视频等多种形式的内容。研究人员通过分析这些数据,能够深入探讨冲突期间的信息传播模式、叙事策略以及公众情绪的演变。
衍生相关工作
基于该数据集,多项相关研究得以展开。例如,研究人员利用自然语言处理技术对亲克里姆林宫和反克里姆林宫频道的文本内容进行主题建模和情感分析,揭示了不同阵营的叙事差异。此外,数据集还催生了关于社交媒体在冲突中角色的跨学科研究,探讨了数字平台如何塑造公众对战争的认知和态度。
数据集最近研究
最新研究方向
近年来,Telegram作为俄罗斯与乌克兰冲突中的关键信息传播平台,其数据集的研究方向主要集中在政治传播与信息战的分析上。通过对Pro-Kremlin和Anti-Kremlin频道的对比研究,学者们深入探讨了这些频道如何通过多模态内容(如文本、图像、视频)影响公众舆论。特别是在冲突期间,Anti-Kremlin频道更多地关注战争暴行和人道主义危机,而Pro-Kremlin频道则倾向于为军事行动辩护。此外,研究还揭示了Telegram在信息传播中的独特作用,如其无算法干预的内容分发机制,使得信息传播更加直接和广泛。这些研究不仅为理解数字平台在政治冲突中的作用提供了新的视角,也为未来的信息战策略和公众舆论引导提供了重要的参考。
相关研究论文
- 1Telegram as a Battlefield: Kremlin-related Communications during the Russia-Ukraine Conflict乔治亚州立大学, 马萨诸塞大学达特茅斯分校, 赖特州立大学, 阿肯色大学小石城分校 · 2025年
以上内容由遇见数据集搜集并总结生成



