FACTors|事实核查数据集|生态系统分析数据集
收藏FACTors数据集概述
数据集基本信息
- 名称:FACTors: A New Dataset for Studying Fact-checking Ecosystem
- 收录会议:第48届国际ACM SIGIR会议(SIGIR 2025)
- 数据规模:包含117,993份英文事实核查报告中的118,112条声明
- 时间范围:1995-2025年
- 来源机构:39家国际事实核查网络(IFCN)和欧洲事实核查标准网络(EFCSN)的签约组织
- 重复声明:包含7,327条被多个组织核查的重叠声明,对应2,977条唯一声明
数据集内容
- 主文件:
FACTors.csv(CSV格式) - 辅助文件:
author_stats.csv:作者统计信息org_stats.csv:组织统计信息
- Lucene索引:Apache Lucene (version 8.11.0)索引文件(需通过指定链接获取)
数据结构(FACTors.csv)
| 字段名 | 描述 |
|---|---|
| Row ID | 主键 |
| Report ID | 唯一报告ID |
| Claim ID | 唯一声明ID |
| Claim | 被核查的声明文本 |
| Content | 未发布(版权原因) |
| Date published | 报告发布日期(ISO 8601格式) |
| Author | 报告作者 |
| Organisation | 发布组织名称 |
| Original verdict | 事实核查结论 |
| Title | 报告标题 |
| URL | 报告在线链接 |
| Normalised rating | 六种预定义评级之一 |
统计信息(辅助文件)
author_stats.csv
- 事实核查经验(首次与末次报告时间差)
- 核查报告总数
- 唯一核查声明比例
- 核查频率(均值与标准差)
- 合作组织数量
- 报告平均字数(均值与标准差)
org_stats.csv
- 作者数量
- 核查报告总数
- 唯一核查声明比例
- 核查频率(均值与标准差)
联系方式
- 数据集及应用咨询:Enes Altuncu (drenesaltuncu@gmail.com)
- Lucene索引咨询:Dwaipayan Roy (dwaipayan.roy@iiserkol.ac.in)
引用格式
bibtex @inproceedings{FACTors2025, title={{FACTors}: A New Dataset for Studying Fact-checking Ecosystem}, authors={Altuncu, Enes and Bac{s}kent, Can. and Bhattacherjee, Sanjay and Li, Shujun and Roy, Dwaipayan}, year={2025}, numpages={10}, doi={10.1145/3726302.3730339}, booktitle={Proceedings of the 48th International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR 25), July 13--18, 2025, Padua, Italy}, publisher={ACM}, }

- 1FACTors: A New Dataset for Studying the Fact-checking EcosystemUniversity of Kent Institute of Cyber Security for Society (iCSS) & School of Computing Canterbury, Kent, United Kingdom · 2025年
AIS数据集
该研究使用了多个公开的AIS数据集,这些数据集经过过滤、清理和统计分析。数据集涵盖了多种类型的船舶,并提供了关于船舶位置、速度和航向的关键信息。数据集包括来自19,185艘船舶的AIS消息,总计约6.4亿条记录。
github 收录
中国近海台风路径集合数据集(1945-2024)
1945-2024年度,中国近海台风路径数据集,包含每个台风的真实路径信息、台风强度、气压、中心风速、移动速度、移动方向。 数据源为获取温州台风网(http://www.wztf121.com/)的真实观测路径数据,经过处理整合后形成文件,如使用csv文件需使用文本编辑器打开浏览,否则会出现乱码,如要使用excel查看数据,请使用xlsx的格式。
国家海洋科学数据中心 收录
NIST Thermochemical Database
NIST Thermochemical Database(NIST热化学数据库)是一个包含大量热化学数据的数据集,涵盖了各种化学物质的热力学性质,如焓、熵、自由能等。该数据库由美国国家标准与技术研究院(NIST)维护,旨在为科学研究和工业应用提供准确的热化学数据。
webbook.nist.gov 收录
ner_training_stanza
该数据集包含文本数据及其相应的命名实体识别信息。文本被分词,并且命名实体识别信息既包括词级别也包括字符级别。数据集分为训练集、验证集和测试集,适用于进一步的自然语言处理任务。
huggingface 收录
中国1km分辨率年降水量数据(1901-2023年)
中国1km分辨率年降水量数据(1901-2023年)根据西北农林科技大学彭守璋研究员团队研制的1901-2023年中国1km分辨率逐月降水量数据集进行年度累加合成后除以10进行单位换算后得到。数据包含多个TIF文件,每个TIF文件为对应年份的年累加降水量,降水量单位为mm。彭守璋研究员在《Earth System Science Data》以论文形式发布了1 km monthly temperature and precipitation dataset for China from 1901 to 2017数据。论文链接https://doi.org/10.5194/essd-11-1931-2019。
国家地球系统科学数据中心 收录
