Telegram Bots Dataset

Name: Telegram Bots Dataset
Creator: 卡内基梅隆大学; 清华大学; 剑桥大学; 普林斯顿大学
Published: 2026-03-25 21:41:47
License: 暂无描述

arXiv2026-03-25 更新2026-03-27 收录

下载链接：

https://zenodo.org/records/17281308

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由多所顶尖大学联合创建，是迄今为止规模最大的Telegram机器人及消息数据集，包含106,000个频道、809百万条消息和32,071个机器人信息。数据集通过雪球采样方法从现有公开数据集扩展而来，新增了67,000个频道和492百万条消息。数据内容涵盖机器人描述、功能交互记录以及频道间链接关系，特别关注了机器人在金融诈骗、非法服务等 illicit 活动中的角色。该数据集为研究人员提供了分析Telegram生态系统的基础资源，尤其适用于内容审核、网络安全和社交媒体行为研究等领域。

This dataset, jointly created by multiple top-tier universities, is the largest Telegram bot and message dataset to date, comprising 106,000 channels, 809 million messages, and 32,071 bot records. The dataset was expanded from existing public datasets via snowball sampling, with 67,000 additional channels and 492 million new messages added. The data covers bot descriptions, functional interaction logs, and inter-channel linkages, with a particular focus on the roles of bots in illicit activities such as financial fraud and illegal services. This dataset provides researchers with a foundational resource for analyzing the Telegram ecosystem, and is particularly suitable for research areas including content moderation, cybersecurity, and social media behavior studies.

提供机构：

卡内基梅隆大学; 清华大学; 剑桥大学; 普林斯顿大学

创建时间：

2026-03-25

搜集汇总

数据集介绍

构建方式

在即时通讯平台Telegram日益成为多样化服务与潜在非法活动温床的背景下，Telegram Bots数据集的构建采用了系统性的大规模数据采集方法。研究团队以两个已公开数据集为种子，通过滚雪球采样技术，从消息中的URL链接不断发现新的频道与机器人。利用Telegram官方API，被动收集了约10.6万个公开频道的8.09亿条消息，并从中提取了3.2万个机器人。为深入理解机器人功能，团队开发了自动化交互系统，向每个机器人发送标准命令并记录其响应，从而获取了机器人的描述、命令列表及交互数据。

特点

该数据集的核心特点在于其规模与首创性，它不仅是当前最大的通用Telegram消息数据集，更是首个专注于机器人的大规模数据集。数据集涵盖了丰富的元信息，包括机器人的用户名、描述、关联频道以及通过交互获取的功能性数据。尤为重要的是，研究团队结合人工标注、关键词匹配与大语言模型分析，对机器人进行了多维度分类，识别出其服务的领域（如金融、管理工具、地下服务等）与核心功能（如支付处理、推荐管理、人工智能服务）。这些特征使得数据集能够深刻揭示Telegram生态中机器人作为软件基础设施的角色与多样性。

使用方法

该数据集为研究人员探究Telegram平台上的自动化服务与潜在风险提供了宝贵资源。使用者可基于数据集中的频道-机器人关联网络，分析特定社区的信息流动与组织结构。通过机器人分类与功能标签，研究者能够量化分析不同领域（如金融诈骗、地下市场）中机器人的行为模式与演化趋势。数据集中的交互响应与命令列表，可用于训练模型以自动识别机器人的恶意意图或服务类型。此外，数据集支持对机器人生命周期、语言使用偏好及社区拓扑结构进行纵向与横向比较研究，为平台治理与政策制定提供实证依据。

背景与挑战

背景概述

Telegram Bots Dataset 作为首个大规模 Telegram 机器人数据集，由卡内基梅隆大学、清华大学、剑桥大学和普林斯顿大学的研究团队于2026年发布，旨在系统性地刻画 Telegram 平台上机器人服务的功能与生态。该数据集通过雪球采样技术，从现有公开数据集中扩展出超过6.7万个新频道、4.92亿条消息及3.2万个机器人，构建了涵盖机器人描述、交互响应及关联频道的多维度信息库。其核心研究问题聚焦于揭示机器人在合法服务与非法活动中的双重角色，特别是其在金融诈骗、地下交易和非自愿图像传播等 illicit 行为中的基础设施作用。该数据集的发布填补了 Telegram 生态中机器人研究的空白，为内容审核、网络安全和平台治理提供了重要的实证基础，推动了社交平台可编程应用研究的深入发展。

当前挑战

Telegram Bots Dataset 所应对的领域挑战在于系统性地识别和分类 Telegram 机器人的多样化功能，尤其是区分其合法用途与非法活动。具体挑战包括：在缺乏中央化机器人仓库的情况下，如何全面枚举机器人并提取其功能描述；如何通过自动化交互准确捕获机器人的实际行为，克服描述信息不足的局限；以及如何利用多语言、多社区数据有效分类机器人的服务领域。在构建过程中，研究团队面临数据采集的复杂性挑战，例如通过雪球采样从海量消息中提取机器人链接，并设计自动化系统与机器人交互以记录响应。此外，数据标注需结合人工、关键词和大语言模型分析，以确保分类的准确性与一致性，同时处理多语言文本的检测与解析难题，以揭示机器人服务的跨语言社区特征。

常用场景

经典使用场景

在社交媒体生态系统的研究中，Telegram Bots Dataset 为分析自动化服务在即时通讯平台上的作用提供了关键数据基础。该数据集最经典的使用场景在于大规模刻画 Telegram 机器人的功能分类与行为模式，研究者通过雪球采样从公开数据集中扩展出超过 67,000 个频道、4.92 亿条消息及 32,000 个机器人，并开发自动化系统与机器人交互以提取其功能描述。这一过程使得学术界能够首次系统性地审视机器人在内容审核、金融服务、社交互动等多领域的分布与运作机制，尤其聚焦于合法应用与恶意活动之间的界限。

解决学术问题

该数据集有效解决了以往研究中对 Telegram 机器人角色认知不足的学术空白。传统工作多集中于分析消息、频道与群组，而机器人作为平台核心基础设施的作用常被忽视。通过功能分类与社区分析，本研究揭示了机器人在支付处理、推荐系统及恶意人工智能端点等方面的关键功能，尤其识别出金融诈骗、地下服务等非法活动中机器人的自动化支撑作用。这一贡献推动了社交媒体研究从表层内容分析向底层软件基础设施的延伸，为平台治理与政策制定提供了实证依据。

衍生相关工作

该数据集衍生了一系列关注 Telegram 生态系统安全与治理的经典研究。例如，后续工作基于机器人功能分类深入探讨了加密货币诈骗的自动化机制，以及人工智能端点在地下市场的滥用模式。同时，研究启发了对机器人生命周期与重复使用模式的分析，揭示了恶意机器人如何通过用户名迭代逃避检测。这些衍生成果不仅拓展了社交媒体安全的研究边界，也为跨平台机器人行为比较提供了方法论基础，进一步推动了自动化服务在合规与非法场景中的系统性审视。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集