five

FACTors|事实核查数据集|生态系统分析数据集

收藏
arXiv2025-05-14 更新2025-05-16 收录
事实核查
生态系统分析
下载链接:
https://github.com/altuncu/FACTors
下载链接
链接失效反馈
资源简介:
FACTors是一个全新的数据集,旨在填补现有事实核查数据集在生态系统层面的空白。该数据集包含了来自39个事实核查组织的117,993份事实核查报告中的118,112个声明,这些组织都是国际事实核查网络(IFCN)和/或欧洲事实核查标准网络(EFCSN)的活跃签署方。数据集的时间跨度从1995年到2025年,涵盖了广泛的事实核查生态系统。数据集还包含了7,327个被多个事实核查组织调查的重叠声明,对应2,977个独特声明。FACTors允许进行新的生态系统级别研究,例如分析事实核查组织的政治倾向,并尝试根据统计分析结果和政治倾向为每个组织分配可信度评分。数据集的构建方法具有通用性,可用于维护一个可动态更新的实时数据集。
提供机构:
University of Kent Institute of Cyber Security for Society (iCSS) & School of Computing Canterbury, Kent, United Kingdom
创建时间:
2025-05-14
原始信息汇总

FACTors数据集概述

数据集基本信息

  • 名称:FACTors: A New Dataset for Studying Fact-checking Ecosystem
  • 收录会议:第48届国际ACM SIGIR会议(SIGIR 2025)
  • 数据规模:包含117,993份英文事实核查报告中的118,112条声明
  • 时间范围:1995-2025年
  • 来源机构:39家国际事实核查网络(IFCN)和欧洲事实核查标准网络(EFCSN)的签约组织
  • 重复声明:包含7,327条被多个组织核查的重叠声明,对应2,977条唯一声明

数据集内容

  • 主文件FACTors.csv(CSV格式)
  • 辅助文件
    • author_stats.csv:作者统计信息
    • org_stats.csv:组织统计信息
  • Lucene索引:Apache Lucene (version 8.11.0)索引文件(需通过指定链接获取)

数据结构(FACTors.csv)

字段名 描述
Row ID 主键
Report ID 唯一报告ID
Claim ID 唯一声明ID
Claim 被核查的声明文本
Content 未发布(版权原因)
Date published 报告发布日期(ISO 8601格式)
Author 报告作者
Organisation 发布组织名称
Original verdict 事实核查结论
Title 报告标题
URL 报告在线链接
Normalised rating 六种预定义评级之一

统计信息(辅助文件)

author_stats.csv

  • 事实核查经验(首次与末次报告时间差)
  • 核查报告总数
  • 唯一核查声明比例
  • 核查频率(均值与标准差)
  • 合作组织数量
  • 报告平均字数(均值与标准差)

org_stats.csv

  • 作者数量
  • 核查报告总数
  • 唯一核查声明比例
  • 核查频率(均值与标准差)

联系方式

  • 数据集及应用咨询:Enes Altuncu (drenesaltuncu@gmail.com)
  • Lucene索引咨询:Dwaipayan Roy (dwaipayan.roy@iiserkol.ac.in)

引用格式

bibtex @inproceedings{FACTors2025, title={{FACTors}: A New Dataset for Studying Fact-checking Ecosystem}, authors={Altuncu, Enes and Bac{s}kent, Can. and Bhattacherjee, Sanjay and Li, Shujun and Roy, Dwaipayan}, year={2025}, numpages={10}, doi={10.1145/3726302.3730339}, booktitle={Proceedings of the 48th International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR 25), July 13--18, 2025, Padua, Italy}, publisher={ACM}, }

AI搜集汇总
数据集介绍
main_image_url
构建方式
在信息爆炸的时代,虚假信息的泛滥已成为全球性挑战。FACTors数据集作为首个生态系统级别的英文事实核查数据集,通过系统化采集1995-2025年间39个IFCN/EFCSN认证机构的117,993份报告构建而成。研究团队采用Scrapy框架配合Playwright浏览器自动化工具,对机构官网进行合规爬取,优先提取ClaimReview结构化数据,并通过meta标签补充缺失字段。数据经过langdetect语言过滤、NLTK冗余短语清洗及SBERT语义去重(相似度阈值0.95)等严格预处理,最终形成包含118,112条声明的Lucene倒排索引库,其中7,327条为多机构核查的重叠声明。
使用方法
研究者可通过GitHub获取结构化CSV及Lucene索引,利用Pyserini工具实现高效布尔查询与模糊搜索。典型应用场景包括:基于机构经验值、裁决独特性等6项指标的信用评分建模;通过预训练politicalBiasBERT分析文本政治倾向;采用加权投票算法处理重叠声明冲突。数据集特别适合开发时态感知的核查系统,其30年时间标签支持研究虚假信息的演化规律。注意事项包括:英文语料限制需谨慎推广至跨文化研究,裁决归一化存在8.5%误差率建议人工复核,重叠声明识别阈值0.88需结合领域知识验证。
背景与挑战
背景概述
FACTors数据集由英国肯特大学、米德尔塞克斯大学等机构的研究团队于2025年提出,旨在构建首个覆盖事实核查生态系统全貌的基准数据集。该数据集收录了1995-2025年间39个国际事实核查网络(IFCN)成员机构发布的118,112条英文核查报告,涉及1,953名核查人员对113,762项声明的验证,其中包含2,977项被多机构交叉核查的争议性声明。作为首个遵循标准化核查原则、具有时间跨度和机构多样性的生态系统级数据集,FACTors通过结构化存储原始核查结论与标准化标签,为研究虚假信息传播模式、机构间核查一致性、核查者可信度评估等关键问题提供了前所未有的研究基础。其创新性地保留多机构对同一声明的独立判断,突破了传统数据集简单多数表决的局限,推动了基于加权可信度的智能核查方法发展。
当前挑战
该数据集面临的领域挑战主要体现在三方面:首先,虚假信息具有语境依赖性,相同声明在不同时空背景下可能呈现截然不同的真实性特征,这对自动化核查系统的上下文理解能力提出极高要求;其次,多机构核查结论存在显著分歧现象,约6.5%的交叉核查案例出现矛盾结论,反映出政治倾向、证据质量标准等潜在偏差因素带来的判定复杂性。在构建过程中,研究团队遭遇了三大技术挑战:一是原始核查结论的语义异构性,需通过RoBERTa模型将39种机构特有的表述方式映射到六类标准化标签;二是重叠声明识别需平衡语义相似度阈值,经人工验证确定0.88的余弦相似度可达到95%精确率;三是动态网页反爬机制导致路透社等三家目标机构数据缺失,影响了生态系统的完整覆盖。这些挑战突显了事实核查领域数据标准化与质量控制的难度。
常用场景
经典使用场景
FACTors数据集在虚假信息检测和事实核查领域具有广泛的应用价值。该数据集涵盖了1995年至2025年间由39个国际事实核查组织发布的118,112条事实核查报告,为研究者提供了丰富的历史数据和多样化的信息来源。其经典使用场景包括训练和评估自动化事实核查系统,特别是在自然语言处理(NLP)和机器学习模型中。通过分析这些报告中的文本特征和核查结果,研究者可以开发更精准的虚假信息检测算法。
解决学术问题
FACTors数据集解决了虚假信息研究中的多个关键学术问题。首先,它填补了现有数据集在时间跨度和来源多样性上的不足,避免了时间偏差和来源选择偏差。其次,数据集中的重叠核查报告(7,327条)为研究不同事实核查组织之间的一致性和分歧提供了宝贵资源。此外,数据集还支持对事实核查组织的政治倾向和可信度进行量化分析,为虚假信息传播的动态研究提供了新的视角。
实际应用
在实际应用中,FACTors数据集被广泛用于开发自动化事实核查工具和平台。例如,新闻机构可以利用该数据集训练模型,快速识别和标记社交媒体上的虚假信息。政府部门和非营利组织也可以基于数据集的分析结果,制定更有效的信息治理政策。此外,数据集中的历史数据还能帮助研究者追踪虚假信息的演变模式,为公共危机事件中的信息管理提供支持。
数据集最近研究
最新研究方向
随着虚假信息在社交媒体上的迅速传播,FACTors数据集为研究事实核查生态系统提供了前所未有的全面视角。该数据集涵盖了1995至2025年间39个国际事实核查网络(IFCN)和欧洲事实核查标准网络(EFCSN)成员机构发布的118,112项核查报告,为分析事实核查行为模式、机构间一致性以及政治倾向性等关键问题提供了丰富的数据支持。近期研究重点聚焦于三个方面:首先,利用该数据集开发更精确的自动化事实核查模型,特别是针对多机构核查的重复声明进行加权投票算法优化;其次,探索事实核查机构的政治倾向性及其对核查结果的影响,已有研究通过预训练语言模型发现不同机构存在显著的政治立场差异;最后,基于历史核查表现、工作频率、报告详尽程度等多维度指标,构建事实核查机构和个人的可信度评估体系,为信息可信度分级提供科学依据。这些研究方向不仅推动了事实核查技术的进步,也为制定更有效的信息治理政策提供了数据支撑。
相关研究论文
  • 1
    FACTors: A New Dataset for Studying the Fact-checking EcosystemUniversity of Kent Institute of Cyber Security for Society (iCSS) & School of Computing Canterbury, Kent, United Kingdom · 2025年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

AIS数据集

该研究使用了多个公开的AIS数据集,这些数据集经过过滤、清理和统计分析。数据集涵盖了多种类型的船舶,并提供了关于船舶位置、速度和航向的关键信息。数据集包括来自19,185艘船舶的AIS消息,总计约6.4亿条记录。

github 收录

中国近海台风路径集合数据集(1945-2024)

1945-2024年度,中国近海台风路径数据集,包含每个台风的真实路径信息、台风强度、气压、中心风速、移动速度、移动方向。 数据源为获取温州台风网(http://www.wztf121.com/)的真实观测路径数据,经过处理整合后形成文件,如使用csv文件需使用文本编辑器打开浏览,否则会出现乱码,如要使用excel查看数据,请使用xlsx的格式。

国家海洋科学数据中心 收录

NIST Thermochemical Database

NIST Thermochemical Database(NIST热化学数据库)是一个包含大量热化学数据的数据集,涵盖了各种化学物质的热力学性质,如焓、熵、自由能等。该数据库由美国国家标准与技术研究院(NIST)维护,旨在为科学研究和工业应用提供准确的热化学数据。

webbook.nist.gov 收录

ner_training_stanza

该数据集包含文本数据及其相应的命名实体识别信息。文本被分词,并且命名实体识别信息既包括词级别也包括字符级别。数据集分为训练集、验证集和测试集,适用于进一步的自然语言处理任务。

huggingface 收录

中国1km分辨率年降水量数据(1901-2023年)

中国1km分辨率年降水量数据(1901-2023年)根据西北农林科技大学彭守璋研究员团队研制的1901-2023年中国1km分辨率逐月降水量数据集进行年度累加合成后除以10进行单位换算后得到。数据包含多个TIF文件,每个TIF文件为对应年份的年累加降水量,降水量单位为mm。彭守璋研究员在《Earth System Science Data》以论文形式发布了1 km monthly temperature and precipitation dataset for China from 1901 to 2017数据。论文链接https://doi.org/10.5194/essd-11-1931-2019。

国家地球系统科学数据中心 收录