FACTors

Name: FACTors
Creator: University of Kent Institute of Cyber Security for Society (iCSS) & School of Computing Canterbury, Kent, United Kingdom
Published: 2025-05-14 22:10:22
License: 暂无描述

arXiv2025-05-14 更新2025-05-16 收录

下载链接：

https://github.com/altuncu/FACTors

下载链接

链接失效反馈

官方服务：

资源简介：

FACTors是一个全新的数据集，旨在填补现有事实核查数据集在生态系统层面的空白。该数据集包含了来自39个事实核查组织的117,993份事实核查报告中的118,112个声明，这些组织都是国际事实核查网络（IFCN）和/或欧洲事实核查标准网络（EFCSN）的活跃签署方。数据集的时间跨度从1995年到2025年，涵盖了广泛的事实核查生态系统。数据集还包含了7,327个被多个事实核查组织调查的重叠声明，对应2,977个独特声明。FACTors允许进行新的生态系统级别研究，例如分析事实核查组织的政治倾向，并尝试根据统计分析结果和政治倾向为每个组织分配可信度评分。数据集的构建方法具有通用性，可用于维护一个可动态更新的实时数据集。

FACTors is a novel dataset aimed at filling the ecosystem-level gap in existing fact-checking datasets. This dataset contains 118,112 claims extracted from 117,993 fact-checking reports sourced from 39 fact-checking organizations, all of which are active signatories of the International Fact-Checking Network (IFCN) and/or the European Fact-Checking Standards Network (EFCSN). Spanning the period from 1995 to 2025, the dataset covers a broad spectrum of the fact-checking ecosystem. Additionally, the dataset includes 7,327 overlapping claims that have been investigated by multiple fact-checking organizations, corresponding to 2,977 unique claims. FACTors enables novel ecosystem-level research, such as analyzing the political leanings of fact-checking organizations and attempting to assign credibility scores to each organization based on statistical analysis results and their political orientations. The construction method of the dataset is generalizable, enabling the maintenance of a dynamically updatable real-time dataset.

提供机构：

University of Kent Institute of Cyber Security for Society (iCSS) & School of Computing Canterbury, Kent, United Kingdom

创建时间：

2025-05-14

原始信息汇总

FACTors数据集概述

数据集基本信息

名称：FACTors: A New Dataset for Studying Fact-checking Ecosystem
收录会议：第48届国际ACM SIGIR会议（SIGIR 2025）
数据规模：包含117,993份英文事实核查报告中的118,112条声明
时间范围：1995-2025年
来源机构：39家国际事实核查网络（IFCN）和欧洲事实核查标准网络（EFCSN）的签约组织
重复声明：包含7,327条被多个组织核查的重叠声明，对应2,977条唯一声明

数据集内容

主文件：FACTors.csv（CSV格式）
辅助文件：
- author_stats.csv：作者统计信息
- org_stats.csv：组织统计信息
Lucene索引：Apache Lucene (version 8.11.0)索引文件（需通过指定链接获取）

数据结构（FACTors.csv）

字段名	描述
Row ID	主键
Report ID	唯一报告ID
Claim ID	唯一声明ID
Claim	被核查的声明文本
Content	未发布（版权原因）
Date published	报告发布日期（ISO 8601格式）
Author	报告作者
Organisation	发布组织名称
Original verdict	事实核查结论
Title	报告标题
URL	报告在线链接
Normalised rating	六种预定义评级之一

统计信息（辅助文件）

author_stats.csv

事实核查经验（首次与末次报告时间差）
核查报告总数
唯一核查声明比例
核查频率（均值与标准差）
合作组织数量
报告平均字数（均值与标准差）

org_stats.csv

作者数量
核查报告总数
唯一核查声明比例
核查频率（均值与标准差）

联系方式

数据集及应用咨询：Enes Altuncu (drenesaltuncu@gmail.com)
Lucene索引咨询：Dwaipayan Roy (dwaipayan.roy@iiserkol.ac.in)

引用格式

bibtex @inproceedings{FACTors2025, title={{FACTors}: A New Dataset for Studying Fact-checking Ecosystem}, authors={Altuncu, Enes and Bac{s}kent, Can. and Bhattacherjee, Sanjay and Li, Shujun and Roy, Dwaipayan}, year={2025}, numpages={10}, doi={10.1145/3726302.3730339}, booktitle={Proceedings of the 48th International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR 25), July 13--18, 2025, Padua, Italy}, publisher={ACM}, }

搜集汇总

数据集介绍

构建方式

在信息爆炸的时代，虚假信息的泛滥已成为全球性挑战。FACTors数据集作为首个生态系统级别的英文事实核查数据集，通过系统化采集1995-2025年间39个IFCN/EFCSN认证机构的117,993份报告构建而成。研究团队采用Scrapy框架配合Playwright浏览器自动化工具，对机构官网进行合规爬取，优先提取ClaimReview结构化数据，并通过meta标签补充缺失字段。数据经过langdetect语言过滤、NLTK冗余短语清洗及SBERT语义去重（相似度阈值0.95）等严格预处理，最终形成包含118,112条声明的Lucene倒排索引库，其中7,327条为多机构核查的重叠声明。

使用方法

研究者可通过GitHub获取结构化CSV及Lucene索引，利用Pyserini工具实现高效布尔查询与模糊搜索。典型应用场景包括：基于机构经验值、裁决独特性等6项指标的信用评分建模；通过预训练politicalBiasBERT分析文本政治倾向；采用加权投票算法处理重叠声明冲突。数据集特别适合开发时态感知的核查系统，其30年时间标签支持研究虚假信息的演化规律。注意事项包括：英文语料限制需谨慎推广至跨文化研究，裁决归一化存在8.5%误差率建议人工复核，重叠声明识别阈值0.88需结合领域知识验证。

背景与挑战

背景概述

FACTors数据集由英国肯特大学、米德尔塞克斯大学等机构的研究团队于2025年提出，旨在构建首个覆盖事实核查生态系统全貌的基准数据集。该数据集收录了1995-2025年间39个国际事实核查网络（IFCN）成员机构发布的118,112条英文核查报告，涉及1,953名核查人员对113,762项声明的验证，其中包含2,977项被多机构交叉核查的争议性声明。作为首个遵循标准化核查原则、具有时间跨度和机构多样性的生态系统级数据集，FACTors通过结构化存储原始核查结论与标准化标签，为研究虚假信息传播模式、机构间核查一致性、核查者可信度评估等关键问题提供了前所未有的研究基础。其创新性地保留多机构对同一声明的独立判断，突破了传统数据集简单多数表决的局限，推动了基于加权可信度的智能核查方法发展。

当前挑战

该数据集面临的领域挑战主要体现在三方面：首先，虚假信息具有语境依赖性，相同声明在不同时空背景下可能呈现截然不同的真实性特征，这对自动化核查系统的上下文理解能力提出极高要求；其次，多机构核查结论存在显著分歧现象，约6.5%的交叉核查案例出现矛盾结论，反映出政治倾向、证据质量标准等潜在偏差因素带来的判定复杂性。在构建过程中，研究团队遭遇了三大技术挑战：一是原始核查结论的语义异构性，需通过RoBERTa模型将39种机构特有的表述方式映射到六类标准化标签；二是重叠声明识别需平衡语义相似度阈值，经人工验证确定0.88的余弦相似度可达到95%精确率；三是动态网页反爬机制导致路透社等三家目标机构数据缺失，影响了生态系统的完整覆盖。这些挑战突显了事实核查领域数据标准化与质量控制的难度。

常用场景

经典使用场景

FACTors数据集在虚假信息检测和事实核查领域具有广泛的应用价值。该数据集涵盖了1995年至2025年间由39个国际事实核查组织发布的118,112条事实核查报告，为研究者提供了丰富的历史数据和多样化的信息来源。其经典使用场景包括训练和评估自动化事实核查系统，特别是在自然语言处理（NLP）和机器学习模型中。通过分析这些报告中的文本特征和核查结果，研究者可以开发更精准的虚假信息检测算法。

解决学术问题

FACTors数据集解决了虚假信息研究中的多个关键学术问题。首先，它填补了现有数据集在时间跨度和来源多样性上的不足，避免了时间偏差和来源选择偏差。其次，数据集中的重叠核查报告（7,327条）为研究不同事实核查组织之间的一致性和分歧提供了宝贵资源。此外，数据集还支持对事实核查组织的政治倾向和可信度进行量化分析，为虚假信息传播的动态研究提供了新的视角。

实际应用

在实际应用中，FACTors数据集被广泛用于开发自动化事实核查工具和平台。例如，新闻机构可以利用该数据集训练模型，快速识别和标记社交媒体上的虚假信息。政府部门和非营利组织也可以基于数据集的分析结果，制定更有效的信息治理政策。此外，数据集中的历史数据还能帮助研究者追踪虚假信息的演变模式，为公共危机事件中的信息管理提供支持。

数据集最近研究