CTI Telegram Dataset

Name: CTI Telegram Dataset
Creator: Cochin University of Science and Technology,India
Published: 2025-09-25 17:27:10
License: 暂无描述

arXiv2025-09-25 更新2025-09-27 收录

下载链接：

https://cve.mitre.org

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为CTI Telegram Dataset，由印度科钦科技大学计算机应用系的研究人员构建。数据集包含从2023年1月至2025年2月期间，从12个精选的Telegram频道收集的145,349条消息。这些频道经过筛选，以确保其内容与网络威胁情报相关。为了从这些消息中提取出有价值的情报，研究人员开发了一个基于BERT的分类器，实现了96.64%的准确率。从过滤后的消息中，他们构建了一个包含86,509个恶意IoC的数据集，包括域名、IP地址、URL、哈希值和CVE编号。该数据集不仅规模庞大、准确度高，而且为未来的研究和工作应用奠定了基础，旨在提高网络威胁情报的自动化程度和全球网络防御能力。

This dataset, named CTI Telegram Dataset, was constructed by researchers from the Department of Computer Applications, Cochin University of Science and Technology, India. It contains 145,349 messages collected from 12 selected Telegram channels between January 2023 and February 2025. These channels were screened to ensure their content is relevant to cyber threat intelligence (CTI). To extract valuable intelligence from these messages, the researchers developed a BERT-based classifier that achieved an accuracy of 96.64%. From the filtered messages, they constructed a dataset containing 86,509 malicious Indicators of Compromise (IoCs), including domain names, IP addresses, URLs, hashes, and CVE identifiers. This dataset is not only large-scale and highly accurate, but also lays a solid foundation for future research and practical applications, aiming to improve the automation level of cyber threat intelligence and global cyber defense capabilities.

提供机构：

Cochin University of Science and Technology,India

创建时间：

2025-09-25

搜集汇总

数据集介绍

构建方式

在网络安全情报领域，构建高质量数据集是支撑威胁检测模型开发的关键基础。CTI Telegram Dataset通过端到端自动化流程系统化采集Telegram平台上的威胁情报内容，研究团队从150个候选频道中筛选出12个高价值CTI频道，利用Telethon库爬取2023年1月至2025年2月期间的145,349条消息。为精准分离威胁情报与普通内容，采用基于BERT的分类器对消息进行过滤，该模型在测试中达到96.64%的准确率，最终从过滤后的消息中提取出86,509个恶意威胁指标，涵盖域名、IP地址、URL、哈希值和CVE编号等多类实体。

特点

该数据集显著特点在于其规模性与时效性，覆盖两年间持续更新的威胁情报流，消息来源均经过严格的多维度评估，包括技术讨论深度、活动频率及语言一致性等标准。数据经过归一化处理，将威胁指标替换为标准化标记以提升模型泛化能力，同时通过正则表达式与VirusTotal、NVD等权威平台验证，确保恶意指标的可信度。消息分类标签经过人工标注且标注者间一致性系数达0.90，辅以随机下采样平衡类别分布，为CTI研究提供了高信噪比的基准数据。

使用方法

该数据集适用于网络安全领域的多类研究任务，用户可基于已分类的CTI相关消息开发威胁检测模型或分析威胁演化模式。研究者可直接应用预训练的BERT分类器对自有Telegram数据进行过滤，亦可利用提取的恶意指标构建威胁情报知识图谱。数据使用前需经过统一的预处理流程，包括威胁指标标准化、文本降噪及词形还原等步骤，以确保与原始数据处理逻辑的一致性。对于指标验证环节，建议结合多源威胁情报平台进行交叉核对，以增强分析结果的鲁棒性。

背景与挑战

背景概述

随着网络威胁日益复杂化，网络威胁情报（CTI）已成为组织主动防御的关键工具。由印度科钦科技大学与意大利东皮埃蒙特大学等机构的研究团队于2025年联合构建的CTI Telegram数据集，旨在解决传统CTI数据源更新滞后、覆盖面有限的问题。该数据集通过挖掘Telegram平台中公开的网络安全频道，系统采集了2023年至2025年间12个高价值频道的14.5万条消息，并利用BERT模型实现96.64%的精准内容过滤，最终提炼出8.6万个恶意攻击指标（如域名、IP、CVE等）。这一工作不仅填补了即时通信平台作为CTI源的空白，更为自动化威胁检测模型提供了大规模、高时效性的基准数据。

当前挑战

在CTI领域，从非结构化社交平台提取有效威胁情报面临多重挑战：一是Telegram消息兼具技术讨论与日常闲聊的混合特性，需区分安全相关内容与噪声；二是平台数据存在多语言混杂、API采集限制及隐私合规风险。数据集构建过程中，研究者需攻克高频消息流下的实时过滤技术，通过正则表达式与病毒库交叉验证确保指标可信度，同时应对数据标注中类别不均衡导致的模型偏差问题。这些挑战凸显了社交数据用于CTI时在质量控制和可扩展性方面的核心难点。

常用场景

经典使用场景

在网络安全威胁情报研究领域，CTI Telegram Dataset为自动化威胁检测模型的训练与评估提供了关键数据支持。该数据集通过从12个精选Telegram频道系统采集的145,349条消息，结合BERT分类器实现96.64%的精准内容过滤，构建了包含86,509个恶意威胁指标的高质量语料库。这一资源显著提升了威胁情报提取的自动化水平，成为学术界开发新型CTI分析算法的基准测试平台。

衍生相关工作

该数据集催生了多项CTI领域创新研究，例如基于其消息分类框架开发的增强型威胁实体识别模型（如APTNER），以及结合多源威胁情报的跨平台分析系统（如TIMiner）。相关研究进一步拓展至暗网数据融合（DarkGram项目）和动态威胁图谱构建，推动了《NLP-Based Techniques for Cyber Threat Intelligence》等综述性研究的理论演进，为OSINT驱动的自适应防御体系提供了方法论支撑。

数据集最近研究