The Far-Right Telegram Ecosystem Dataset (1025 Channels, 5.7M+ Posts)
收藏github2026-02-14 更新2026-02-15 收录
下载链接:
https://github.com/shahin-nazar/far-right-ecosystem-dataset-telegram
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含来自1025个极右翼Telegram频道的570多万条公开帖子(2019-2024年),涵盖了广泛的白人至上主义者、极端民族主义者、新纳粹分子、基督教民族主义者等极右翼运动和团体。数据包括频道ID、频道名称、消息ID、消息文本、参与度指标(浏览量、回复数等)、转发、消息链接、媒体类型等多个字段。数据通过Telegram API获取,并经过处理以适用于BERTopic主题建模。
This dataset contains over 5.7 million public posts (2019–2024) sourced from 1025 far-right Telegram channels, covering a broad spectrum of far-right movements and groups including white supremacists, ultra-nationalists, neo-Nazis, Christian nationalists, and others. The dataset includes multiple fields such as channel ID, channel name, message ID, message text, engagement metrics (e.g., views, reply counts), forwarded messages, message links, and media types. All data was collected via the Telegram API and processed for BERTopic-based topic modeling.
创建时间:
2026-02-13
原始信息汇总
The Far-Right Telegram Ecosystem Dataset 数据集概述
数据集基本信息
- 数据集名称:The Far-Right Telegram Ecosystem Dataset (1025 Channels, 5.7M+ Posts)
- 数据来源:公开的Telegram频道和群组
- 数据收集方法:通过Telegram API,使用迭代滚雪球采样方法,从一个种子群组开始,捕获在线极右翼生态系统的关系和网络维度。
- 数据规模:包含1025个极右翼群体的数据,超过570万条公开帖子。
- 时间范围:2019年至2024年。
- 数据格式:CSV文件。
- DOI:10.5281/zenodo.18633027
- 许可证:Creative Commons Attribution 4.0 International Share-Alike (CC BY-SA 4.0)。
数据集内容与范围
- 涵盖的群体与意识形态:包括白人至上主义者、极端民族主义者、认同主义者、新纳粹分子、神秘纳粹主义、基督教民族主义者、各种加速主义者、大替代理论及其他阴谋论、民兵组织、其他模糊定义的极端分子等。
- 涵盖的当代运动:包括Active Clubs、Patriot Front、Atomwaffen相关团体、Oath Keepers、Nordic Resistance Movement、Patriotic Alternative、Patriot Movement等。
- 帖子级数据字段:包括频道ID、频道名称、消息ID、消息文本、参与度指标(如浏览量、回复数等)、转发信息、消息链接、包含的媒体类型、域名、URL以及其他十几个字段。
数据处理与应用
- 处理目的:用于应用基于BERT的主题建模。
- 处理后的数据位置:存储在
data/目录中,包含多个经过分块处理的CSV文件,以适应基于BERT的主题模型。 - 模型输出:主题建模结果存储在
model-output/文件夹的CSV格式文件中,包括主题标签和相关数据。 - 可视化结果:模型输出的可视化结果存储在
figures/文件夹中,为JPG格式;其他HTML格式的可视化用于指导研究,存储在additional-figures/目录。
模型设置(BERTopic)
- CountVectorizer:
- 停用词:english
- 最小文档频率:2
- N元语法范围:(1, 2)
- HDBSCAN:
- 最小聚类大小:150
- 度量标准:euclidean
- 聚类选择方法:eom
- 预测数据:True
- UMAP:
- 邻居数:15
- 组件数:5
- 最小距离:0.0
- 度量标准:cosine
- BERTopic:
- 嵌入模型:例如
bert-base-uncased - UMAP模型:用于降维的UMAP模型
- 向量化模型:用于分词的CountVectorizer模型
- 顶部单词数:20
- 详细输出:True
- 嵌入模型:例如
- 用于降维嵌入的UMAP:
- 邻居数:10
- 组件数:2
- 最小距离:0.0
- 度量标准:cosine
数据隐私与匿名化
- 数据仅包含来自公开可访问的Telegram群组/频道的公开数据,未包含私人对话或私人群组的数据。
- 已尽力通过移除或替换敏感信息(如电子邮件地址)对数据集进行匿名化处理,但用户公开分享的内容仍然存在,且可能有所遗漏。
- 使用本数据集时,需尊重个人隐私并遵守相关的隐私法律法规及Telegram的服务条款。
引用信息
如需在研究中使用此数据集或模型,请引用: bibtex @misc{nazar2026, author = {Shahin Nazar, Thomas F. K. Jorna, Abigail Nieves Delgado, Toine Pieters}, title = {"The Far-Right Telegram Ecosystem Dataset (1025 Channels, 5.7M+ Posts)"}, year = {2026}, publisher = {Zenodo}, doi = {10.5281/zenodo.18633027}, url = {https://zenodo.org/records/18633027} }
搜集汇总
数据集介绍

构建方式
在数字社会学与计算传播学领域,对在线极端主义社群的研究日益依赖于大规模、结构化的社交媒体数据。本数据集的构建采用了迭代式雪球抽样方法,通过Telegram API系统性地采集了1025个公开的极右翼频道与群组在2019年至2024年间发布的超过570万条公开帖文。数据采集过程始于一组种子频道,随后依据转发与关联关系扩展至整个网络生态,从而完整捕捉了极右翼在线社群的关联结构与动态演变。原始数据经过清洗与格式化处理,最终以分块CSV文件存储,确保其可直接用于基于BERT的主题建模分析,同时严格遵守Telegram服务条款及相关数据隐私法规。
特点
该数据集在极右翼意识形态与在线行为研究领域具有显著的广度与深度。其内容覆盖了白人至上主义、新纳粹、基督教民族主义、加速主义、大替代阴谋论等多种极右翼思潮,并纳入了“活跃俱乐部”、“爱国阵线”、“原子武器师”等当代运动组织的频道。数据层面不仅包含完整的消息文本与时间戳,还提供了频道ID、用户互动指标(如浏览量、回复数)、转发信息、媒体类型及链接等十余个元数据字段,为多维度的网络分析与内容挖掘提供了坚实基础。数据集已进行初步匿名化处理,移除了电子邮件等敏感信息,但保留了用户公开分享的内容,以平衡研究价值与隐私保护。
使用方法
研究人员可通过GitHub仓库中提供的结构化目录与脚本便捷地使用本数据集。数据主体存放于`data/`目录下的分块CSV文件中,可直接加载至Python或R等分析环境。仓库附带的`run-model.py`脚本演示了如何基于`/data`中的特定频道子集运行BERTopic主题建模流程,并将结果输出至`/output`目录。主题建模采用了经过优化的参数组合,包括CountVectorizer去除英文停用词、UMAP降维与HDBSCAN聚类,用户可参照提供的参数设置复现或调整分析流程。可视化结果与模型输出分别存储于`figures/`与`model-output/`目录,支持研究结果的直接验证与学术发表。使用前请务必阅读数据隐私声明,并遵循CC BY-SA 4.0许可协议进行引用。
背景与挑战
背景概述
在数字媒体与社会网络研究领域,对极端主义在线生态系统的分析已成为理解当代政治传播与意识形态扩散的关键议题。'极右翼Telegram生态系统数据集(1025个频道,570万+帖子)'由Shahin Nazar、Thomas F. K. Jorna等研究人员于2026年通过Zenodo发布,旨在系统性地捕捉2019年至2024年间极右翼群体在Telegram平台上的公开言论与互动网络。该数据集通过迭代雪球采样方法从公开频道中收集了超过570万条帖子,涵盖了白人至上主义、新纳粹主义、基督教民族主义、加速主义等多种极右翼意识形态流派,以及'活跃俱乐部'、'爱国阵线'等当代运动组织。其核心研究问题聚焦于利用BERTopic等主题建模技术揭示极右翼在线话语的结构与演变规律,为计算社会科学、政治学与安全研究提供了大规模、细粒度的实证数据基础,推动了网络极端主义监测与干预策略的学术探索。
当前挑战
该数据集致力于应对网络极端主义研究中的核心挑战:如何从海量、异构且动态演变的社交媒体数据中,精准识别与追踪极右翼意识形态的话语模式与传播机制。具体而言,研究面临多维度难题:在领域问题层面,极右翼话语常以隐喻、符号化或碎片化形式呈现,并与其他政治话题交织,导致主题建模中语义模糊性与概念重叠性较高;同时,极端内容的快速演变与跨平台迁移要求模型具备时序适应性与泛化能力。在构建过程中,挑战主要源于数据采集与处理的复杂性:Telegram平台的API限制与数据隐私法规(如GDPR)要求研究者在合规框架下进行数据爬取与匿名化处理;而极右翼社群的封闭性与网络结构动态性使得通过种子群组进行雪球采样时,可能遗漏边缘或新兴群体,影响生态系统的完整表征。此外,多语言内容的存在与媒体嵌入信息的处理,进一步增加了数据清洗与特征提取的难度。
常用场景
经典使用场景
在数字社会学与计算传播学领域,该数据集为研究者提供了深入探索极右翼在线社群动态的宝贵资源。其经典应用场景在于利用BERTopic等先进主题建模技术,对超过570万条公开帖文进行大规模文本挖掘,系统性地识别并分析极右翼意识形态在Telegram平台上的核心叙事结构、话语演变及跨群体传播模式。通过整合频道元数据与互动指标,研究者能够构建复杂的网络生态图谱,从而揭示信息流动的路径与社群间的关联性。
实际应用
在实践层面,该数据集为网络安全机构、政策研究智库及反仇恨非政府组织提供了关键的情报分析工具。通过监测Active Clubs、爱国者阵线等特定组织的在线话语与活动趋势,相关方能够更早识别潜在的暴力煽动信号与线下行动协调迹象。此外,教育工作者与媒体素养项目亦可利用其分析成果,设计针对性的干预材料,以提升公众对极端主义宣传手法的辨识与抵御能力。
衍生相关工作
围绕该数据集,学术界已衍生出一系列聚焦于极端主义在线生态的经典研究。例如,基于其主题建模输出,学者们深入比较了不同极右翼流派(如基督教民族主义与神秘纳粹主义)在修辞策略上的异同;另有研究利用其网络结构数据,分析了极端社群在平台监管压力下的韧性适应与频道迁移模式。这些工作共同深化了我们对数字时代意识形态传播动力学与社群韧性的理解。
以上内容由遇见数据集搜集并总结生成



