CrediBench
收藏arXiv2025-09-30 更新2025-10-02 收录
下载链接:
https://arxiv.org/pdf/2509.23340.pdf
下载链接
链接失效反馈官方服务:
资源简介:
CrediBench是一个大规模数据处理流程,用于构建时间网络图,这些图共同模拟文本内容和超链接结构,用于检测网络上的不实信息。从2024年12月Common Crawl存档中提取的一个月快照包含4500万个节点和10亿条边,是迄今为止公开可用的最大的网络图数据集,用于不实信息研究。该数据集通过构建包含节点文本内容和结构丰富特征的时序图,为自然语言处理技术和图机器学习方法提供了应用机会,以评估网络域的可信度。
提供机构:
Mila - Quebec AI Institute, McGill University, Concordia University, UC Berkeley, Université de Montréal, University of Oxford, AITHYRA
创建时间:
2025-09-27
搜集汇总
数据集介绍

构建方式
在信息完整性研究领域,CrediBench通过构建自动化数据处理流水线,从Common Crawl网络爬虫档案中提取大规模时序网络图谱。该流程首先下载并解压缩原始WARC文件,通过元数据构建以网页域名为节点、超链接为边的网络结构,随后对节点进行度过滤(保留度大于3的节点)以优化计算效率。文本内容提取阶段利用分布式Spark集群处理WET文件,将每个域名的文档按时间戳聚合,并采用多语言嵌入模型生成节点特征,最终形成包含4500万节点和10亿边的时序文本属性图谱。
特点
该数据集最显著的特征在于其规模性与多维度的信息整合。作为目前公开的最大网络图谱数据集,其2024年12月快照不仅包含丰富的结构关系,还融合了时序动态与文本语义特征。网络结构呈现出典型的无标度特性,最大节点度达到1470万,同时通过人类专家标注的信用评分(PC1与MBFC分数)为节点提供了可靠的监督信号。这种结构-内容-时序的三元耦合设计,使得数据集能够真实反映网络信息生态系统的复杂性。
使用方法
研究者可通过加载处理后的图谱快照,利用图神经网络架构进行节点回归任务,预测网页域名的信用评分。实验表明,GAT模型在结合随机节点初始化时能有效捕捉超链接结构中的信用信号(PC1评分MAE=0.129)。对于文本分析,可使用预训练的Qwen3嵌入向量作为MLP输入特征。数据集支持多跳邻居采样策略,建议采用3跳采样配合30-50个邻居的配置以平衡性能与内存消耗,为大规模网络可信度研究提供基准平台。
背景与挑战
背景概述
随着互联网开放性和大型语言模型生成能力的增强,在线虚假信息已成为全球性威胁。2025年由Mila研究所、麦吉尔大学等机构联合发布的CrediBench数据集,首次构建了融合文本内容与超链接结构的时序网络图谱,通过处理2024年12月Common Crawl存档数据,形成包含4500万节点和10亿边的超大规模网络,为信息完整性研究提供了首个同时涵盖语义、结构与动态演化的基准数据。
当前挑战
该数据集需应对双重挑战:在领域问题层面,传统方法难以建模网络内容与结构的动态交互,且现有模型对新兴虚假信息生成技术的泛化能力不足;在构建过程中,需从90,000个原始文件中提取并去重网络结构,处理7.3TB文本数据时面临计算资源密集、低度节点噪声过滤,以及多源可信度标注对齐等工程难题。
常用场景
经典使用场景
在信息可信度研究领域,CrediBench数据集通过构建包含45亿节点和10亿条边的时序网络图谱,为探索网络域名的结构性特征与文本内容之间的动态关联提供了重要基础。该数据集典型应用于图神经网络和自然语言处理技术的融合实验,研究者可利用其超链接结构和网页文本嵌入向量,训练模型自动评估网络信息源的可信度等级。
衍生相关工作
CrediBench推动了多模态图神经网络在信息可信度评估领域的创新。以该数据集为基础的后续研究发展了时序图注意力机制,如双通道图卷积网络能同步捕捉链接演化与内容变迁特征。相关成果进一步催生了基于检索增强生成的验证框架,将动态网络拓扑与大型语言模型的推理能力相结合,形成了虚假信息检测的技术新范式。
数据集最近研究
最新研究方向
在信息完整性研究领域,CrediBench作为首个融合超链接结构与文本内容的大规模时序网络数据集,正推动虚假信息检测范式的革新。前沿研究聚焦于图神经网络与文本嵌入的协同建模,通过动态捕捉网络域的内容演变与结构关系,显著提升了可信度评分的预测精度。该数据集与生成式AI引发的虚假内容泛滥问题紧密关联,其亿级规模的网络图谱为开发跨平台、可泛化的检测系统提供了关键基础设施,对构建可信数字生态具有里程碑意义。
相关研究论文
- 1CrediBench: Building Web-Scale Network Datasets for Information IntegrityMila - Quebec AI Institute, McGill University, Concordia University, UC Berkeley, Université de Montréal, University of Oxford, AITHYRA · 2025年
以上内容由遇见数据集搜集并总结生成



