TAGFN
收藏arXiv2025-11-27 更新2025-11-28 收录
下载链接:
https://huggingface.co/datasets/kayzliu/TAGFN
下载链接
链接失效反馈官方服务:
资源简介:
TAGFN是由伊利诺伊大学芝加哥分校与南加州大学联合构建的大规模文本属性图数据集,专为虚假新闻检测领域的异常检测研究设计。该数据集包含Politifact、Gossipcop和Fakeddit三个子集,总计超过57万张传播图、760万个节点及700万条边,数据源自真实社交媒体平台的新闻内容与用户历史帖文。构建过程通过整合原始文本属性与传播图结构,保留新闻内容与用户最近200条帖文,并采用人工标注的真伪标签。该数据集主要应用于图机器学习与大语言模型融合研究,旨在解决虚假新闻检测中语义信息与图结构协同建模的核心挑战,推动可信人工智能发展。
TAGFN is a large-scale text-attributed graph dataset jointly constructed by the University of Illinois Chicago and the University of Southern California, specifically tailored for anomaly detection research in the field of fake news detection. Comprising three subsets including Politifact, Gossipcop and Fakeddit, this dataset contains over 570,000 propagation graphs, 7.6 million nodes and 7 million edges in total. The data is sourced from news content and users' historical posts on real social media platforms. During its construction, original text attributes and propagation graph structures are integrated, news content and the most recent 200 posts of each user are preserved, and manually annotated authenticity labels are employed. This dataset is primarily utilized for fusion research of graph machine learning and large language models (LLMs), aiming to address the core challenge of collaborative modeling of semantic information and graph structure in fake news detection, and advance the development of trustworthy artificial intelligence.
提供机构:
伊利诺伊大学芝加哥分校, 南加州大学
创建时间:
2025-11-27
原始信息汇总
TAGFN数据集概述
基本信息
- 数据集名称: TAGFN
- 许可证: CC-BY-NC-SA-4.0
- 主要任务: 图机器学习、文本分类
- 支持语言: 英语
- 数据规模: 100万到1000万条数据之间
数据集配置
politifact配置
- 默认配置: 是
- 数据文件: politifact/raw_text/*.parquet
gossipcop配置
- 数据文件: gossipcop/raw_text/*.parquet
fakeddit配置
- 数据文件: fakeddit/raw_text/*.parquet
标签分类
- 社交
- 新闻
- 异常值
- 图数据
- 错误信息
- 分类
- 检测
搜集汇总
数据集介绍

构建方式
在虚假新闻检测研究领域,构建具有真实传播动态的数据集至关重要。TAGFN数据集基于Politifact、Gossipcop和Fakeddit三个现有公开资源,通过保留新闻原文与用户历史帖文的原始文本特征,重构为包含传播图结构的标准化格式。每个新闻传播图以新闻节点为根,用户节点为子节点,通过边连接反映信息扩散路径,同时引入时间戳记录节点活动时序,并采用严格的机器人用户过滤机制确保数据真实性。
特点
作为面向大语言模型时代的文本属性图数据集,TAGFN的突出特点在于融合多维度信息。其图结构完整呈现新闻传播拓扑,节点文本涵盖新闻内容与用户生成内容,三元组结构(图-文本-时序)为研究提供丰富语义场。数据规模呈现梯度分布,从数万节点到数百万节点不等,覆盖不同复杂度的社交传播场景。标注体系继承权威事实核查结果,构建起兼具结构复杂性与语义深度的基准测试平台。
使用方法
该数据集支持多层次研究方法验证,既适用于传统图神经网络模型训练,也可作为大语言模型的推理测试平台。研究者可通过端到端方式直接输入图结构与文本至LLM进行零样本推理,或采用提示工程策略融入上下文学习。对于监督学习场景,可将LLM生成的文本嵌入与图神经网络结合,实现语义特征与拓扑特征的协同建模。数据集提供的标准划分方案确保不同方法间的可比性,时序信息则为动态传播分析预留了探索空间。
背景与挑战
背景概述
随着大语言模型在文本属性图分析领域的突破性进展,虚假新闻检测作为图异常检测的重要应用方向逐渐受到学界关注。TAGFN数据集由伊利诺伊大学芝加哥分校与南加州大学联合团队于2026年发布,旨在解决现有基准数据集中缺乏大规模真实文本属性图的问题。该数据集通过整合新闻传播图结构与用户历史帖文等多模态特征,为基于大语言模型的图异常检测方法提供了标准化评估框架,显著推动了可信人工智能与社交网络分析领域的交叉研究。
当前挑战
在领域问题层面,虚假新闻检测面临语义欺骗性与传播模式复杂化的双重挑战,传统方法难以有效融合图结构特征与文本语义信息。数据集构建过程中需克服多源数据对齐、用户隐私保护与标注一致性等难题,特别是对海量用户历史帖文的去噪处理与时间戳信息的有效利用,构成了数据质量控制的关键瓶颈。
常用场景
经典使用场景
在虚假信息检测研究领域,TAGFN数据集作为首个大规模真实世界文本属性图基准,为图异常检测提供了标准化评估框架。该数据集通过整合新闻内容与社交传播图结构,构建了包含Politifact、Gossipcop和Fakeddit三个子集的完整体系,每个图实例以新闻为根节点、用户传播为子节点,形成多层级信息传播网络。研究人员可基于该数据集开展图神经网络与大语言模型的融合研究,探索结构特征与语义信息的协同作用机制。
实际应用
在现实应用层面,TAGFN为社交媒体平台的内容审核系统提供了重要技术支撑。基于该数据集训练的检测模型能够实时分析新闻传播路径中的异常模式,结合用户行为特征与文本语义分析,精准识别潜在虚假信息。这种多模态检测方法显著提升了传统单一文本分析的准确性,为构建网络空间清朗环境提供了可落地的解决方案。平台运营方可借助此类技术建立分级预警机制,有效遏制虚假信息的扩散传播。
衍生相关工作
TAGFN的发布催生了图语言模型领域的系列创新研究,包括基于提示工程的零样本检测方法和图结构增强的上下文学习策略。相关研究探索了不同规模语言模型在图异常检测任务中的适应能力,揭示了图拓扑信息与大语言模型语义理解的互补特性。这些工作进一步推动了图神经网络与大语言模型的深度融合,衍生出动态图建模、跨平台泛化检测等新兴研究方向,为构建下一代可信网络信息生态系统奠定了理论基础。
以上内容由遇见数据集搜集并总结生成



