FACTors
收藏arXiv2025-05-14 更新2025-05-16 收录
下载链接:
https://github.com/altuncu/FACTors
下载链接
链接失效反馈资源简介:
FACTors是一个全新的数据集,旨在填补现有事实核查数据集在生态系统层面的空白。该数据集包含了来自39个事实核查组织的117,993份事实核查报告中的118,112个声明,这些组织都是国际事实核查网络(IFCN)和/或欧洲事实核查标准网络(EFCSN)的活跃签署方。数据集的时间跨度从1995年到2025年,涵盖了广泛的事实核查生态系统。数据集还包含了7,327个被多个事实核查组织调查的重叠声明,对应2,977个独特声明。FACTors允许进行新的生态系统级别研究,例如分析事实核查组织的政治倾向,并尝试根据统计分析结果和政治倾向为每个组织分配可信度评分。数据集的构建方法具有通用性,可用于维护一个可动态更新的实时数据集。
提供机构:
University of Kent Institute of Cyber Security for Society (iCSS) & School of Computing Canterbury, Kent, United Kingdom
创建时间:
2025-05-14
原始信息汇总
FACTors数据集概述
数据集基本信息
- 名称:FACTors: A New Dataset for Studying Fact-checking Ecosystem
- 收录会议:第48届国际ACM SIGIR会议(SIGIR 2025)
- 数据规模:包含117,993份英文事实核查报告中的118,112条声明
- 时间范围:1995-2025年
- 来源机构:39家国际事实核查网络(IFCN)和欧洲事实核查标准网络(EFCSN)的签约组织
- 重复声明:包含7,327条被多个组织核查的重叠声明,对应2,977条唯一声明
数据集内容
- 主文件:
FACTors.csv(CSV格式) - 辅助文件:
author_stats.csv:作者统计信息org_stats.csv:组织统计信息
- Lucene索引:Apache Lucene (version 8.11.0)索引文件(需通过指定链接获取)
数据结构(FACTors.csv)
| 字段名 | 描述 |
|---|---|
| Row ID | 主键 |
| Report ID | 唯一报告ID |
| Claim ID | 唯一声明ID |
| Claim | 被核查的声明文本 |
| Content | 未发布(版权原因) |
| Date published | 报告发布日期(ISO 8601格式) |
| Author | 报告作者 |
| Organisation | 发布组织名称 |
| Original verdict | 事实核查结论 |
| Title | 报告标题 |
| URL | 报告在线链接 |
| Normalised rating | 六种预定义评级之一 |
统计信息(辅助文件)
author_stats.csv
- 事实核查经验(首次与末次报告时间差)
- 核查报告总数
- 唯一核查声明比例
- 核查频率(均值与标准差)
- 合作组织数量
- 报告平均字数(均值与标准差)
org_stats.csv
- 作者数量
- 核查报告总数
- 唯一核查声明比例
- 核查频率(均值与标准差)
联系方式
- 数据集及应用咨询:Enes Altuncu (drenesaltuncu@gmail.com)
- Lucene索引咨询:Dwaipayan Roy (dwaipayan.roy@iiserkol.ac.in)
引用格式
bibtex @inproceedings{FACTors2025, title={{FACTors}: A New Dataset for Studying Fact-checking Ecosystem}, authors={Altuncu, Enes and Bac{s}kent, Can. and Bhattacherjee, Sanjay and Li, Shujun and Roy, Dwaipayan}, year={2025}, numpages={10}, doi={10.1145/3726302.3730339}, booktitle={Proceedings of the 48th International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR 25), July 13--18, 2025, Padua, Italy}, publisher={ACM}, }
AI搜集汇总
数据集介绍

构建方式
在信息爆炸的时代,虚假信息的泛滥已成为全球性挑战。FACTors数据集作为首个生态系统级别的英文事实核查数据集,通过系统化采集1995-2025年间39个IFCN/EFCSN认证机构的117,993份报告构建而成。研究团队采用Scrapy框架配合Playwright浏览器自动化工具,对机构官网进行合规爬取,优先提取ClaimReview结构化数据,并通过meta标签补充缺失字段。数据经过langdetect语言过滤、NLTK冗余短语清洗及SBERT语义去重(相似度阈值0.95)等严格预处理,最终形成包含118,112条声明的Lucene倒排索引库,其中7,327条为多机构核查的重叠声明。
使用方法
研究者可通过GitHub获取结构化CSV及Lucene索引,利用Pyserini工具实现高效布尔查询与模糊搜索。典型应用场景包括:基于机构经验值、裁决独特性等6项指标的信用评分建模;通过预训练politicalBiasBERT分析文本政治倾向;采用加权投票算法处理重叠声明冲突。数据集特别适合开发时态感知的核查系统,其30年时间标签支持研究虚假信息的演化规律。注意事项包括:英文语料限制需谨慎推广至跨文化研究,裁决归一化存在8.5%误差率建议人工复核,重叠声明识别阈值0.88需结合领域知识验证。
背景与挑战
背景概述
FACTors数据集由英国肯特大学、米德尔塞克斯大学等机构的研究团队于2025年提出,旨在构建首个覆盖事实核查生态系统全貌的基准数据集。该数据集收录了1995-2025年间39个国际事实核查网络(IFCN)成员机构发布的118,112条英文核查报告,涉及1,953名核查人员对113,762项声明的验证,其中包含2,977项被多机构交叉核查的争议性声明。作为首个遵循标准化核查原则、具有时间跨度和机构多样性的生态系统级数据集,FACTors通过结构化存储原始核查结论与标准化标签,为研究虚假信息传播模式、机构间核查一致性、核查者可信度评估等关键问题提供了前所未有的研究基础。其创新性地保留多机构对同一声明的独立判断,突破了传统数据集简单多数表决的局限,推动了基于加权可信度的智能核查方法发展。
当前挑战
该数据集面临的领域挑战主要体现在三方面:首先,虚假信息具有语境依赖性,相同声明在不同时空背景下可能呈现截然不同的真实性特征,这对自动化核查系统的上下文理解能力提出极高要求;其次,多机构核查结论存在显著分歧现象,约6.5%的交叉核查案例出现矛盾结论,反映出政治倾向、证据质量标准等潜在偏差因素带来的判定复杂性。在构建过程中,研究团队遭遇了三大技术挑战:一是原始核查结论的语义异构性,需通过RoBERTa模型将39种机构特有的表述方式映射到六类标准化标签;二是重叠声明识别需平衡语义相似度阈值,经人工验证确定0.88的余弦相似度可达到95%精确率;三是动态网页反爬机制导致路透社等三家目标机构数据缺失,影响了生态系统的完整覆盖。这些挑战突显了事实核查领域数据标准化与质量控制的难度。
常用场景
经典使用场景
FACTors数据集在虚假信息检测和事实核查领域具有广泛的应用价值。该数据集涵盖了1995年至2025年间由39个国际事实核查组织发布的118,112条事实核查报告,为研究者提供了丰富的历史数据和多样化的信息来源。其经典使用场景包括训练和评估自动化事实核查系统,特别是在自然语言处理(NLP)和机器学习模型中。通过分析这些报告中的文本特征和核查结果,研究者可以开发更精准的虚假信息检测算法。
解决学术问题
FACTors数据集解决了虚假信息研究中的多个关键学术问题。首先,它填补了现有数据集在时间跨度和来源多样性上的不足,避免了时间偏差和来源选择偏差。其次,数据集中的重叠核查报告(7,327条)为研究不同事实核查组织之间的一致性和分歧提供了宝贵资源。此外,数据集还支持对事实核查组织的政治倾向和可信度进行量化分析,为虚假信息传播的动态研究提供了新的视角。
实际应用
在实际应用中,FACTors数据集被广泛用于开发自动化事实核查工具和平台。例如,新闻机构可以利用该数据集训练模型,快速识别和标记社交媒体上的虚假信息。政府部门和非营利组织也可以基于数据集的分析结果,制定更有效的信息治理政策。此外,数据集中的历史数据还能帮助研究者追踪虚假信息的演变模式,为公共危机事件中的信息管理提供支持。
数据集最近研究
最新研究方向
随着虚假信息在社交媒体上的迅速传播,FACTors数据集为研究事实核查生态系统提供了前所未有的全面视角。该数据集涵盖了1995至2025年间39个国际事实核查网络(IFCN)和欧洲事实核查标准网络(EFCSN)成员机构发布的118,112项核查报告,为分析事实核查行为模式、机构间一致性以及政治倾向性等关键问题提供了丰富的数据支持。近期研究重点聚焦于三个方面:首先,利用该数据集开发更精确的自动化事实核查模型,特别是针对多机构核查的重复声明进行加权投票算法优化;其次,探索事实核查机构的政治倾向性及其对核查结果的影响,已有研究通过预训练语言模型发现不同机构存在显著的政治立场差异;最后,基于历史核查表现、工作频率、报告详尽程度等多维度指标,构建事实核查机构和个人的可信度评估体系,为信息可信度分级提供科学依据。这些研究方向不仅推动了事实核查技术的进步,也为制定更有效的信息治理政策提供了数据支撑。
相关研究论文
- 1FACTors: A New Dataset for Studying the Fact-checking EcosystemUniversity of Kent Institute of Cyber Security for Society (iCSS) & School of Computing Canterbury, Kent, United Kingdom · 2025年
以上内容由AI搜集并总结生成



