five

TeleScope

收藏
arXiv2025-04-28 更新2025-04-30 收录
下载链接:
https://data.gesis.org/telescope/
下载链接
链接失效反馈
官方服务:
资源简介:
TeleScope是一个纵向数据集,旨在研究Telegram平台上的在线话语和信息互动。该数据集由GESIS – Leibniz Institute for the Social Sciences等机构创建,包含了约500K个Telegram频道的元数据和约71K个公共频道的下载消息元数据,总计约1.2亿条消息。此外,该数据集还提供了频道连接、用户交互数据以及消息传播流等信息,用于研究信息传播和消息转发模式。TeleScope数据集旨在解决现有Telegram数据集的局限性,为研究人员提供更全面、多样化的数据支持,以便进行长期的社会媒体研究。

TeleScope is a longitudinal dataset developed to investigate online discourse and information interaction on the Telegram platform. Created by institutions including GESIS – Leibniz Institute for the Social Sciences and other relevant organizations, this dataset contains metadata for approximately 500,000 Telegram channels and metadata of downloaded messages from around 71,000 public channels, totaling roughly 120 million messages. Additionally, the dataset provides information such as channel connections, user interaction data, and message propagation flows, which are intended for research on information dissemination and message forwarding patterns. The TeleScope dataset aims to address the limitations of existing Telegram datasets, providing researchers with more comprehensive and diversified data support to carry out long-term social media research.
提供机构:
GESIS – Leibniz Institute for the Social Sciences, Cologne, Germany; Department of Computer Science, College of Computing and Informatics, University of Sharjah, Sharjah, UAE; Heinrich Heine University Düsseldorf, Düsseldorf, Germany
创建时间:
2025-04-28
原始信息汇总

TeleScope 数据集概述

描述

TeleScope 是基于 Telegram 构建的广泛数据集套件,包含从 Telegram 下载的频道元数据和消息元数据。此外,它还提供以下增强功能:

  • 语言检测
  • 每个频道的活跃时段
  • 从消息中提取的 Telegram 实体

当前发布的 TeleScope 包含约 50 万个 Telegram 频道的频道元数据,以及其中 7.1 万个公共频道的消息元数据,总计约 1.2 亿条爬取的消息。

数据收集

  • 初始种子列表包含 251 个独特的 Telegram 频道,基于 TGStat 的订阅者、引用和覆盖范围排名前 100 的频道。
  • 使用 Telethon API 收集这些公共频道的元数据和消息。
  • 通过转发消息发现新频道,从而迭代扩展列表。

统计信息

特征
时间范围 2024 年 2 月 1 日至 2024 年 10 月 29 日
发现的频道 1,210,272
下载元数据的频道 534,137
完全下载的公共频道 71,048
下载的消息数量 120,024,020
每个频道的平均消息数 1,689.33
转发消息的百分比 19.6%
每小时下载的平均消息数 20,495
完整数据集大小 76GB(压缩)

数据集

第一版 TeleScope 可从 Archiving BASIS 下载:DOI https://doi.org/10.7802/2825

使用案例

  • 社交媒体研究的复制:Telegram 的转发和反应数据支持研究扩散、病毒性、参与度和情感。
  • 网络和社区发现:频道到频道图和消息转发流支持分析社区、枢纽和信息传播。
  • 基于实体的搜索和探索:标签、提及和 URL 增强可搜索性,支持政治话语、趋势和外部影响等主题研究。
  • 低资源语言的数据源:数据集包含 47 种语言,为 NLP 和社会语言学研究提供罕见访问。

源代码

源代码可在 GitHub 仓库获取:https://github.com/susmita3107/TeleScope

许可证

数据集采用知识共享署名-非商业性-相同方式共享 4.0 许可证发布。

出版物

  • Gangopadhyay, S., Dessi, D., Dimitrov, D., Dietze, S., TeleScope: A Longitudinal Dataset for Investigating Online Discourse and Information Interaction on Telegram, International AAAI Conference on Web and Social Media (ICWSM), Copenhagen, Denmark, June 2025.

联系方式

  • 电子邮件:dimitar.dimitrov@gesis.org 或 susmita.gangopadhyay@gesis.org
搜集汇总
数据集介绍
main_image_url
构建方式
TeleScope数据集的构建采用了雪球抽样方法,从251个种子频道出发,通过追踪消息转发关系逐步扩展数据集。研究团队利用Telethon API收集了约500K个Telegram频道的元数据,并从中下载了71K个公共频道的消息元数据,总计约1.2亿条消息。数据收集过程包括频道元数据(如标题、创建日期、订阅者数量)和消息元数据(如发送时间、转发来源、用户互动统计)。为增强数据可用性,团队还提供了语言检测、频道活跃时段分析等数据增强功能,并通过消息转发流构建了频道间的交互网络。
使用方法
研究者可通过三种方式利用TeleScope:首先,基于频道交互图分析信息传播模式,识别关键枢纽频道和社区结构;其次,利用消息实体(标签、链接等)进行主题追踪和跨平台信息流研究;第三,结合时间元数据研究频道活跃规律与重大事件的关联。数据集支持社会计算(如错误信息传播)、网络科学(社区检测)和NLP(低资源语言处理)等多领域研究。为保护隐私,原始消息内容需通过安全数据中心申请获取,而增强元数据可直接用于大多数分析场景。
背景与挑战
背景概述
TeleScope数据集由GESIS – Leibniz社会科学研究所等机构的研究团队于2024年推出,旨在解决即时通讯平台Telegram上在线话语与信息交互研究的核心问题。作为目前已知规模最大的Telegram数据集,它包含约50万频道的元数据和7.1万公开频道的1.2亿条消息,特别关注信息传播模式与用户交互行为的研究。该数据集通过雪球抽样方法构建,创新性地利用消息转发功能追踪跨频道信息流,为社交媒体研究提供了与传统平台(如Twitter)可比的分析框架,填补了隐私导向型平台大规模纵向数据缺失的空白。
当前挑战
构建TeleScope面临双重挑战:在领域问题层面,Telegram的非对称传播机制(频道仅允许管理员发帖)导致信息扩散研究缺乏双向交互数据,且平台不提供消息转发的完整传播路径,增加了信息溯源难度;在技术构建层面,平台缺乏中央频道目录需依赖第三方注册表TGStat进行种子采样,而消息实体识别需处理多语言文本(涵盖47种语言)及非结构化数据格式。此外,为符合隐私规范需剥离原始内容仅保留元数据,这对分析深度构成制约,同时平台内容未被搜索引擎索引的特性也增加了数据采集的复杂性。
常用场景
经典使用场景
TeleScope数据集在社交网络分析领域具有广泛的应用价值,尤其在研究Telegram平台上的信息传播模式和用户互动行为方面表现突出。该数据集通过收录大量公开频道的元数据、消息转发路径及用户互动信息,为研究者提供了丰富的素材,用于探索信息如何在Telegram网络中扩散。例如,研究者可以利用该数据集分析特定话题或事件在Telegram上的传播路径,识别关键的信息传播节点,以及评估不同内容类型的传播效率。
解决学术问题
TeleScope数据集解决了社交网络研究中关于信息传播、社区发现和用户行为分析的多个核心问题。首先,它填补了Telegram平台大规模数据集的空白,使得研究者能够进行跨平台比较研究。其次,通过提供消息转发路径和用户互动数据,该数据集支持复杂网络分析,帮助研究者理解信息传播的动力学机制。此外,数据集中的多语言内容为低资源语言的自然语言处理研究提供了宝贵资源。
实际应用
在实际应用层面,TeleScope数据集为多个领域提供了支持。在信息安全领域,该数据集可用于监测和识别虚假信息、极端主义内容的传播模式。在市场营销领域,企业可以通过分析用户互动数据优化内容策略。政府和非政府组织可利用该数据集进行舆情监测,了解公众对特定政策或事件的反应。此外,教育机构也可利用该数据集进行社交媒体素养教育,帮助学生理解信息传播的机制。
数据集最近研究
最新研究方向
TeleScope数据集作为当前Telegram平台上最大规模的多语言纵向数据集,其最新研究聚焦于信息传播动力学与跨社区交互网络的深度挖掘。在虚假信息监测领域,该数据集通过追踪120万条消息的转发路径,为识别极端主义内容传播的关键节点提供了前所未有的时空分析维度。同时,结合语言检测和实体识别技术,研究者正探索多语言环境下政治话语的演变规律,特别是在俄乌冲突等热点事件中,如何通过频道间交互图谱揭示地缘政治叙事的扩散机制。数据集特有的频道元数据(如创建时间、订阅量)与用户行为数据(浏览、转发、反应)的耦合分析,正在推动社交机器人检测、群体极化现象等前沿课题的研究突破。
相关研究论文
  • 1
    TeleScope: A Longitudinal Dataset for Investigating Online Discourse and Information Interaction on TelegramGESIS – Leibniz Institute for the Social Sciences, Cologne, Germany; Department of Computer Science, College of Computing and Informatics, University of Sharjah, Sharjah, UAE; Heinrich Heine University Düsseldorf, Düsseldorf, Germany · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作