five

TeraGram

收藏
arXiv2026-05-15 更新2026-05-19 收录
下载链接:
https://doi.org/10.25625/GDCXQK
下载链接
链接失效反馈
官方服务:
资源简介:
TeraGram是由马克斯·普朗克研究所等机构联合创建的迄今规模最大的纵向Telegram公开内容数据集,涵盖2015年至2025年超过59亿条消息、71.2万个频道与群组,数据总量达3.33TB。该数据集采用雪球爬取方法从Telegram官方API收集,包含消息元数据、转发关系、表情反应、投票等结构化信息,支持跨语言多社区分析。其核心价值在于为研究无算法干预平台上的用户参与模式、网络演化和社区形成机制提供基础,特别适用于计算社会科学与社交媒体分析领域。
提供机构:
马克斯·普朗克动力学与自组织研究所; 哥廷根大学·复杂系统动力学研究所; 哥廷根大学·生物网络动力学校园研究所; 哥廷根大学·数据科学校园研究所; 哥本哈根大学·尼尔斯·玻尔研究所·生物复杂性; 哥廷根大学医学中心·医学信息学研究所; 哥廷根大学医学中心·医学伦理与历史研究所; 格拉茨大学·IDea_Lab
创建时间:
2026-05-15
原始信息汇总

数据集概述:TeraGram dataset

基本信息

  • 标题: TeraGram dataset
  • 版本: 1.0
  • DOI: https://doi.org/10.25625/GDCXQK
  • 发布日期: 2026-05-15
  • 存储库: GRO.data (Max Planck Institute for Dynamics and Self-Organization)
  • 作者:
    • Golovin, Anastasia (Max Planck Institute for Dynamics and Self-Organization)
    • Sebastian B. Mohr (Max Planck Institute for Dynamics and Self-Organization)
    • Arne I. Gottwald (University of Göttingen)
    • Ulrik Hvid (University of Copenhagen)
    • Srushhti Trivedi (University Medical Center Göttingen)
    • Joao P. Neto (University of Graz)
    • Andreas C. Schneider (Max Planck Institute for Dynamics and Self-Organization)
    • Viola Priesemann (Max Planck Institute for Dynamics and Self-Organization)
  • 学科: 计算机与信息科学;物理学;社会科学

数据集描述

  • 内容: TeraGram 是一个大规模的 Telegram 公共聊天消息数据集。
  • 规模:
    • 包含超过 59亿条消息,时间跨度从 2015年到2025年
    • 数据来自 712,000个频道和群组
    • 数据总量:89.7 GB (ZIP 压缩包)。
  • 数据丰富性: 消息数据附带转发、反应和投票等元数据。

数据格式与访问

  • 主要格式: Parquet 文件;大型表按每批次100万行进行拆分。
  • 辅助格式: 提供 1% 的样本数据,格式为 CSV。
  • 数据管道: 提供将数据集导入 Postgres 数据库的管道(详见 GitHub 仓库)。
  • 访问限制:
    • 元数据字段: 可公开下载。
    • 消息内容: 访问受限,以保护 Telegram 用户隐私。合格的研究人员可通过电子邮件向联系人申请访问,需提供所属机构、研究项目简要描述以及感兴趣的消息类型(如特定语言或特定聊天),申请将逐案审查。

相关出版物

  • 论文: TeraGram: A Structured Longitudinal Dataset of the Telegram Messenger,已被 ICWSM 2026 接收。

许可协议

  • 条款: 自定义数据集条款,具体为 Open Data Commons Attribution License (ODC-By) v1.0
  • 要求: 使用数据时需通过引用来提供适当的署名。

文件示例(前10个文件)

文件名 大小 说明
chats.parquet 253.1 MB 聊天信息
chats_users.parquet 29.2 MB 聊天-用户关联
chat_language.parquet 5.7 MB 聊天语言
polls.parquet 785.9 MB 投票信息
poll_options.parquet 1.0 GB 投票选项
users.parquet 4.4 GB 用户信息
entity_hashtags_batch_0.parquet 569.3 MB 实体标签(批次0)
entity_hashtags_batch_1.parquet 581.1 MB 实体标签(批次1)
entity_hashtags_batch_2.parquet 531.1 MB 实体标签(批次2)
entity_hashtags_batch_3.parquet 556.7 MB 实体标签(批次3)

下载与引用

  • 总下载量: 536 次
  • 引用格式: 支持 EndNote XML、RIS、BibTeX 等格式。
  • 导出元数据: 支持 OAI_ORE、DataCite、Schema.org JSON-LD、DDI 等多种标准格式。
搜集汇总
数据集介绍
main_image_url
构建方式
TeraGram数据集的构建基于雪球爬取策略,利用Telegram官方API从100个订阅量最大的政治频道出发,通过递归解析转发消息的来源以发现新的公开聊天室。爬虫根据已下载聊天室中转发消息的出度(out-degree)为待下载队列分配优先级,优先抓取出度最高的节点,从而聚焦于网络中的核心枢纽。数据收集于2025年5月至11月之间,但借助Telegram API完整的历史记录,数据时间跨度从2015年9月延伸至2025年11月。整个爬取过程分布在200个认证账号和3台工作机器上并行执行,最终存储于PostgreSQL关系数据库中。
特点
该数据集是迄今规模最大的Telegram公共内容数据集,涵盖超过59亿条消息、71.2万个频道及群体,时间跨度超过十年。其独特优势在于结构化关系格式(Parquet文件),包含消息、用户、聊天、投票和表情反应等核心表格,支持高效的大规模计算分析。数据集全面捕捉了Telegram特有的功能,如讨论群组、评论文线程、嵌入URL、标签和表情反应,并算法推断每个聊天的主要语言,覆盖俄语、波斯语、阿拉伯语、英语等多语种。此外,数据采用两层访问模式:元数据开放获取,消息文本需经合理请求方可访问,所有用户标识均进行假名化处理以保护隐私。
使用方法
TeraGram适用于计算社会科学、数字人文和机器学习等多个领域。用户可通过Parquet文件直接将数据导入关系数据库或使用SQL进行高效查询,同时提供CSV样本方便快速检查。数据集遵循FAIR原则,附带详细的模式文档、示例查询和预处理脚本,存放于GitHub仓库。研究者可以利用其结构化特性分析用户互动、网络演化、跨语言比较及内容传播模式。使用时需注意数据偏差:爬虫偏向流行频道,且自2024年起Telegram引入算法推荐功能,分析跨时段数据时应考虑这一异质性。
背景与挑战
背景概述
TeraGram数据集由马克斯·普朗克动力学与自组织研究所及哥廷根大学等机构的研究人员于2026年创建,旨在系统性地捕捉Telegram这一去中心化、算法干预极少的社交平台上的公共话语生态。该数据集包含超过59亿条消息,覆盖2015年至2025年跨越十年间的71.2万个频道与群组,并附有丰富的元数据,如转发、反应、投票及语言标注。研究核心问题聚焦于理解在无算法内容推荐的环境中,用户参与模式、网络演化与社群形成的有机机制。TeraGram的发布填补了大规模、结构化、多语言Telegram研究的空白,为计算社会科学、数字人文学科及机器学习领域提供了前所未有的纵向数据基础,尤其有助于对比分析不同语言与社群在相同平台约束下的行为差异。
当前挑战
该数据集所解决的领域挑战在于,多数社交平台受不透明的算法强烈影响,使研究者难以区分有机社交动态与算法诱导效应;而Telegram以时间线排序、缺乏推荐机制的特性,为研究算法无关的信息扩散提供了天然实验室。在构建过程中,研究团队面临多重技术挑战:首先,Telegram官方未提供学术数据接口,需基于Pyrogram自行开发异步爬虫,并通过200个认证账户并行协作以规避API速率限制;其次,雪球式爬取策略从100个种子频道出发,基于出度优先队列下载,虽能捕获核心枢纽,却可能遗漏低连接度的边缘社群;再者,回复线程重构因消息ID在删除后移位,被迫依赖时间戳匹配,存在同一秒内多条消息的歧义风险;此外,语言分类需处理噪声文本与短消息干扰,且英、俄、波斯等多语种下的可靠性评估因现有新闻质量评级覆盖不足而受限。
常用场景
经典使用场景
TeraGram数据集凭借其跨越2015年至2025年的近十年纵向记录,以及涵盖超过59亿条来自71.2万个公共频道与群组的消息,成为研究无算法干预社交平台信息传播规律的理想基石。该数据集最经典的使用场景聚焦于探究有机社交动态与算法推荐效应之间的本质区别。由于Telegram以时间线排序和极简算法介入著称,研究者能够借助TeraGram剥离内容策展的混杂因素,还原用户行为、网络演化与社区形成的原始面貌。这为比较不同语言、文化与用户群体在同一平台技术架构下的交互模式提供了前所未有的数据支持,尤其适合分析俄罗斯、伊朗等Telegram主流使用地区的公共话语生态。
实际应用
在实际应用层面,TeraGram为舆情监测、危机管理和数字治理提供了坚实的数据基础。研究机构和政府部门可利用该数据集分析特定地缘政治事件(如俄乌冲突、伊朗抗议)在Telegram上的讨论动态与情绪走向,从而实现对社会情绪的早期预警。新闻行业与事实核查组织能够借助其中丰富的元数据(包括转发链、URL可靠性评分和表情反应)开发自动化虚假信息检测工具,提升网络信息生态的净化能力。同时,该数据集对隐私保护的严谨设计(如用户标识去标识化、排除私密对话)使其合规地支持商业情报分析、市场趋势洞察与平台政策评估等实际需求。
衍生相关工作
TeraGram的出现催生了一系列高质量的衍生研究。例如,Ventzke(2025)利用该数据集研究了外部URL在Telegram网络中的信息扩散临界过程,揭示了信息传播的动力学特征。Brockers等人(2025)则基于TeraGram中的对话样本微调大型语言模型,探究意见动力学中交互效应与偏见的分离方法。此外,Keßler等人(2026)的工作通过整合TeraGram的网络拓扑信息,显著提升了社交媒体虚假信息检测算法的准确率。这些工作不仅验证了数据集在信息传播建模、自然语言处理与机器学习应用中的广泛可重用性,也确立了TeraGram作为多学科交叉研究基础设施的重要地位。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作