FakeCTI
收藏arXiv2025-05-06 更新2025-05-08 收录
下载链接:
https://github.com/dessertlab/Concept-based-Disinformation-CTI
下载链接
链接失效反馈官方服务:
资源简介:
FakeCTI数据集是第一个系统地链接虚假新闻与虚假信息活动及威胁行为者的数据集。它包括来自43个不同活动的12,155篇文章,每篇文章都带有元数据,指定了相关的活动、威胁行为者和传播媒介。这个数据集允许研究人员和从业者分析虚假信息趋势,开发自动检测系统,并在大规模上评估归属方法。
FakeCTI Dataset is the first dataset that systematically links fake news with disinformation campaigns and threat actors. It comprises 12,155 articles from 43 distinct campaigns, each paired with metadata specifying the associated campaign, threat actor, and dissemination medium. This dataset enables researchers and practitioners to analyze disinformation trends, develop automated detection systems, and evaluate attribution methods at scale.
提供机构:
意大利那不勒斯费德里科二世大学计算机科学与技术系(DIETI)
创建时间:
2025-05-06
原始信息汇总
Concept-based-Disinformation-CTI 数据集概述
数据集基本信息
- 数据集名称:Concept-based-Disinformation-CTI
- 关联论文:"Elevating Cyber Threat Intelligence against Disinformation Campaigns with LLM-based Concept Extraction and the FakeCTI Dataset"
数据集用途
- 用于提升针对虚假信息活动的网络威胁情报分析能力
- 基于LLM的概念提取技术
数据集特点
- 包含虚假网络威胁情报数据(FakeCTI Dataset)
- 专注于概念提取方法在虚假信息检测中的应用
搜集汇总
数据集介绍

构建方式
FakeCTI数据集的构建基于对虚假新闻和虚假信息活动的系统性收集与标注。研究团队从多个公开档案中获取数据,包括政治虚假信息网站、虚假新闻网站、虚假新闻农场以及企业虚假信息网站等。通过人工标注,将虚假新闻文章与已知的虚假信息活动和威胁行为者进行关联,确保数据集的系统性和结构化。数据集包含12,155篇文章,涵盖43个不同的虚假信息活动,每篇文章均标注了相关活动、威胁行为者及传播媒介。
特点
FakeCTI数据集是首个系统性地将虚假新闻文章与虚假信息活动和威胁行为者关联起来的数据集。其特点在于提供了丰富的内容和元数据,包括文章标题、正文、链接、虚假信息活动、威胁行为者及传播媒介等。数据集的高质量和结构化设计使其成为研究虚假新闻检测和归因的重要资源。此外,数据集通过标注虚假信息活动的核心叙事和关系,为概念型网络威胁情报(CTI)的研究提供了坚实基础。
使用方法
FakeCTI数据集可用于虚假新闻检测、虚假信息活动归因以及威胁行为者识别等研究。研究人员可通过分析数据集中的结构化信息,开发自动化检测系统或评估归因方法。数据集的使用方法包括提取概念型CTI指标、应用自然语言处理技术进行文本分析,以及利用机器学习模型进行虚假新闻分类和归因。此外,数据集还可用于评估不同技术在虚假新闻检测和归因中的效果。
背景与挑战
背景概述
FakeCTI数据集由意大利那不勒斯费德里科二世大学的研究团队于2025年提出,旨在应对虚假新闻和虚假信息活动对公众信任、政治稳定和网络安全的威胁。该数据集首次系统地将虚假新闻文章与已知的虚假信息活动和威胁行为者联系起来,包含12,155篇文章,涵盖43个不同的虚假信息活动。FakeCTI的提出标志着网络威胁情报(CTI)从依赖低层次技术指标向高层次语义指标的转变,为虚假信息的检测和归因提供了结构化基础。
当前挑战
FakeCTI数据集面临的挑战主要包括两个方面:一是领域问题的挑战,即如何从虚假新闻中提取高层次的语义指标,以解决传统CTI方法在虚假信息检测中的局限性;二是构建过程中的挑战,包括虚假新闻文章的可达性问题(许多文章因被主流平台删除而无法获取),以及如何确保提取的结构化信息(如<主体,关系,客体>三元组)的准确性和一致性。此外,数据集的构建还需要克服虚假信息活动频繁变化和威胁行为者匿名性带来的归因困难。
常用场景
经典使用场景
在网络安全与虚假信息研究领域,FakeCTI数据集为识别和分析虚假新闻提供了结构化基础。该数据集通过系统化地关联虚假新闻文章与已知的虚假信息活动及威胁行为者,为研究者提供了一个标准化的评估平台。其经典使用场景包括虚假新闻的自动检测、虚假信息活动的追踪以及威胁行为者的识别。通过利用大型语言模型(LLMs)提取的高层次语义指标,FakeCTI能够捕捉虚假新闻中的核心叙事和关系,从而在学术研究和实际应用中发挥重要作用。
实际应用
在实际应用中,FakeCTI数据集被广泛用于提升网络安全和公共信息环境的健康。安全分析师可以利用该数据集中的结构化信息,快速识别和响应虚假信息活动,从而减少其对公众信任和社会稳定的负面影响。此外,社交媒体平台和新闻机构可以借助FakeCTI开发自动化工具,实时监测和过滤虚假新闻。政府部门和非营利组织也能利用该数据集进行政策制定和公众教育,增强社会对虚假信息的抵抗力。
衍生相关工作
FakeCTI数据集衍生了一系列相关研究工作,特别是在虚假新闻检测和网络威胁情报领域。基于该数据集的研究提出了多种自动化检测方法,包括基于TF-IDF的词汇相似性分析、基于SBERT的语义相似性分析以及基于DistilBERT的深度学习模型。这些方法在虚假新闻归因任务中表现出色,进一步推动了该领域的技术进步。此外,FakeCTI还激发了跨学科合作,促进了网络安全、自然语言处理和社会科学等领域的知识融合。
以上内容由遇见数据集搜集并总结生成



