CrediBench
收藏arXiv2025-09-27 更新2025-10-01 收录
下载链接:
https://arxiv.org/abs/2509.23340v1
下载链接
链接失效反馈官方服务:
资源简介:
CrediBench是一个大规模数据处理流程,用于构建时间网络图,以检测网络信息真伪。该数据集包含45百万个节点和1亿个边,是目前为止最大的网络图数据集,用于信息真伪研究。数据集通过Common Crawl存档中提取,包含文本内容和超链接结构。数据集适用于自然语言处理和图机器学习方法,以评估网络域的可信度。
CrediBench is a large-scale data processing pipeline for constructing temporal networks to verify the authenticity of online information. This dataset contains 45 million nodes and 100 million edges, making it the largest network dataset to date for research on information authenticity. Extracted from Common Crawl archives, it includes both textual content and hyperlink structures. This dataset is suitable for natural language processing and graph machine learning methods to evaluate the credibility of network domains.
提供机构:
Mila -Quebec AI Institute, McGill University, Concordia University, UC Berkeley, Université de Montréal, University of Oxford
创建时间:
2025-09-27
原始信息汇总
CrediBench: Building Web-Scale Network Datasets for Information Integrity
数据集概述
CrediBench是一个用于构建时序网络数据集的大规模数据处理流程,专门用于信息完整性研究。该数据集通过联合建模文本内容和超链接结构来支持虚假信息检测。
核心特征
- 数据规模:包含4500万个节点和10亿条边
- 数据来源:基于2024年12月Common Crawl档案的一个月快照
- 数据类型:时序网络图,捕捉内容和网站间引用关系的动态演变
- 应用领域:虚假信息检测、信息完整性研究
技术特点
- 同时建模文本内容和超链接结构
- 捕捉一般虚假信息领域的动态演变
- 支持学习衡量来源可靠性的可信度分数
- 是目前公开可用的最大虚假信息研究网络图数据集
资源获取
- 数据处理管道和实验代码可通过提供的链接获取
- 数据集存储在指定文件夹中
相关领域
- 社会与信息网络 (cs.SI)
- 分布式、并行与集群计算 (cs.DC)
- 机器学习 (cs.LG)
搜集汇总
数据集介绍

构建方式
在信息完整性研究领域,CrediBench通过构建自动化数据处理流水线,从Common Crawl公共网络存档中提取大规模时序网络图谱。该流水线首先下载并解压缩WARC格式的原始数据,通过解析WAT文件中的元数据构建域名级网络图谱,其中节点代表网络域名,边代表域名间的超链接关系。随后对图谱进行节点度过滤,保留度大于3的节点以优化计算效率,同时通过WET文件提取各域名的文本内容,并利用分布式计算框架对文本进行聚合与嵌入表示,最终形成包含结构特征与文本属性的时序图谱。
使用方法
该数据集支持基于图神经网络和自然语言处理技术的网络域名可信度评估研究。研究者可利用图谱结构信息,通过GCN、GAT等图神经网络架构学习节点表示,进行节点回归任务预测可信度评分。同时,域名的文本内容经过预训练语言模型嵌入后,可作为特征输入多层感知机进行独立分析。实验表明,结合多跳邻居采样策略的图注意力网络在可信度预测任务中表现最佳。数据集还支持时序分析,研究者可通过比较不同时间截面的图谱快照,探索网络结构演化与信息传播动态对可信度的影响。
背景与挑战
背景概述
CrediBench数据集由Mila-魁北克人工智能研究所与牛津大学等机构的研究团队于2025年联合构建,旨在应对生成式人工智能时代在线虚假信息的严峻挑战。该数据集通过处理Common Crawl网络爬虫档案,构建了包含4500万节点和10亿条边的大规模时序网络图谱,突破了传统虚假信息检测方法仅关注文本内容或网络结构的局限。其创新性在于同时建模网站文本内容与超链接关系的动态交互,为网络域可信度评估提供了前所未有的多模态研究基础,显著推动了信息完整性研究领域的发展。
当前挑战
CrediBench面临的领域挑战在于虚假信息检测的泛化性不足,现有方法难以适应新兴话题和生成技术的变化,且多数数据集局限于单一平台或有限时间窗口。构建过程中的技术挑战包括:处理Common Crawl原始数据的噪声与覆盖偏差,需设计分布式流水线处理7.3TB的WET文件;解决低度数节点过滤与信息保留的平衡问题,通过设置度数为3的阈值优化计算效率;整合多源可信度标注时需处理不同评分体系的差异,采用主成分分析生成统一可信度指标;此外,时序图谱构建需要应对网络结构动态演化的建模难题,如处理月度快照中高达40%的节点出度变化。
常用场景
经典使用场景
CrediBench数据集在信息完整性研究领域被广泛应用于构建大规模时序网络图谱,其核心价值在于同时整合网页文本内容与超链接结构。这一特性使其成为探索网络信息传播动态演化的理想平台,尤其在分析虚假信息传播路径与可信度评估方面表现卓越。研究者通过该数据集能够模拟真实网络环境中信息源之间的复杂交互关系,为理解虚假信息生态系统的形成机制提供数据支撑。
解决学术问题
该数据集有效解决了传统虚假信息检测方法中文本内容与网络结构相割裂的学术难题。通过构建包含4500万节点和10亿边缘的时序文本属性图,CrediBench突破了单一模态研究的局限,为联合建模结构特征与语义特征提供了基准。其实验证明图神经网络与文本嵌入技术的结合能显著提升可信度评分预测精度,这为构建泛化性更强的自动化检测系统奠定了理论基础。
实际应用
在现实应用层面,CrediBench支撑的信用评分系统可部署于网络内容审核平台,辅助识别潜在虚假信息源。其动态图谱构建能力使得追踪新兴虚假信息传播网络成为可能,为社交媒体平台、新闻聚合器及事实核查机构提供可扩展的技术方案。该数据集还能用于训练浏览器插件实时评估访问网站的可信度,帮助普通用户规避误导性信息。
数据集最近研究
最新研究方向
在信息完整性研究领域,CrediBench数据集推动了网络可信度评估的前沿探索。该数据集通过构建包含4500万节点和10亿条边的大规模时序文本属性图,首次实现了对网页内容与超链接结构的联合动态建模。当前研究重点聚焦于图神经网络与文本嵌入的融合方法,实验表明图注意力网络在可信度评分回归任务中表现最佳(PC1得分MAE=0.129),同时验证了多跳邻域采样策略能显著提升模型性能。随着生成式人工智能技术的快速发展,该数据集为应对LLM生成虚假信息的检测挑战提供了关键基础设施,其动态图结构特性为研究网络信息传播的时空演化规律开辟了新路径。
相关研究论文
- 1CrediBench: Building Web-Scale Network Datasets for Information IntegrityMila -Quebec AI Institute, McGill University, Concordia University, UC Berkeley, Université de Montréal, University of Oxford · 2025年
以上内容由遇见数据集搜集并总结生成



