MultiFC

Name: MultiFC
Creator: 哥本哈根大学计算机科学系
Published: 2019-10-21 23:51:53
License: 暂无描述

arXiv2019-10-21 更新2024-06-21 收录

下载链接：

https://copenlu.github.io/publication/2019_emnlp_augenstein/

下载链接

链接失效反馈

官方服务：

资源简介：

MultiFC是当前最大的自然发生事实核查数据集，包含34,918条来自26个英语事实核查网站的声明，每条声明都配有文本来源和丰富的元数据，并由人类专家记者标记真实性。数据集涵盖了声明发生的上下文和用于验证声明的证据页面。创建过程涉及从Duke Reporters' Lab和Fact Checking Wikipedia页面列出的所有活跃英语事实核查网站中爬取声明及其元数据。该数据集主要用于自动声明真实性预测，旨在解决信息时代中错误信息和虚假信息的挑战。

MultiFC is currently the largest naturally occurring fact-checking dataset. It contains 34,918 claims sourced from 26 English-language fact-checking websites, with each claim paired with textual sources and rich metadata, and its veracity labeled by human expert journalists. The dataset covers the context in which the claims were made as well as the evidence pages used to verify them. The dataset was created by crawling claims and their metadata from all active English-language fact-checking websites listed on the Duke Reporters' Lab and Fact Checking Wikipedia pages. It is primarily intended for automated claim veracity prediction, aiming to address the challenges of misinformation and disinformation in the information age.

提供机构：

哥本哈根大学计算机科学系

创建时间：

2019-09-07

搜集汇总

数据集介绍

构建方式

在虚假信息检测领域，MultiFC数据集的构建体现了对真实世界场景的高度还原。该数据集通过系统化爬取26个英语事实核查网站，收集了34,918条自然发生的声明，每条声明均附带由专业记者标注的真实性标签。构建过程包括声明与元数据的提取、证据页面的检索以及实体链接三个核心环节。证据页面通过将声明文本作为查询词提交至谷歌搜索API获取前10个结果，确保了证据来源的多样性。实体链接采用先进的神经模型，将声明中的人名、地名等实体与维基百科页面进行关联，增强了数据的结构化程度。数据清洗过程剔除了重复实例与标签泄露的语句，并通过分层抽样划分训练集与测试集，保证了数据质量与评估的严谨性。

特点

MultiFC数据集的核心特征在于其规模性与真实性，是目前公开的最大自然声明验证数据集。数据覆盖政治、社会等多个领域，声明来源广泛，包括政客言论、社交媒体传闻等真实语境。每条声明不仅包含文本，还整合了丰富的元数据，如声明者、核查者、分类标签、发布时间等结构化信息。证据页面来源于多样化的网络域，包括维基百科、主流新闻媒体等，反映了真实世界证据检索的复杂性。标签体系保留了各事实核查网站原有的评级标准，从二元判断到多级可信度刻度，形成了跨域的多任务学习挑战。实体链接进一步揭示了声明中频繁出现的实体分布，为理解声明主题提供了语义维度。

使用方法

该数据集主要用于自动声明真实性预测任务，支持多种机器学习方法的开发与评估。研究者可基于声明文本、证据页面及元数据构建联合预测模型，其中证据页面的编码与排序是关键环节。数据集支持多任务学习框架，允许模型在跨域标签空间不一致的情况下学习标签间的语义关系。典型使用流程包括：对声明与证据文本进行编码，通过双向LSTM等序列模型提取特征；利用元数据增强模型输入；设计联合排名机制对证据页面进行重要性加权；最后通过标签嵌入层进行多域分类预测。评估时需注意分层划分的测试集，并采用宏平均F1等指标衡量模型在复杂标签体系下的综合性能。数据集还可用于实体分析、证据检索等辅助研究，推动事实核查技术的实用化发展。

背景与挑战

背景概述

在信息时代，虚假与误导性信息的泛滥已成为社会面临的严峻挑战，促使自动事实核查技术成为自然语言处理领域的研究热点。MultiFC数据集由哥本哈根大学的研究团队于2019年构建，旨在为基于证据的自动声明验证提供大规模、真实世界的多领域语料。该数据集从26个英文事实核查网站中收集了34,918条自然发生的声明，每条声明均配有文本来源、丰富的元数据，并由专业记者进行真实性标注。作为当前最大的公开声明验证数据集，MultiFC不仅推动了声明真实性预测模型的发展，也为研究多领域、多标签场景下的联合学习提供了重要基准，显著提升了该领域研究的现实针对性与技术前沿性。

当前挑战

MultiFC数据集所应对的核心领域挑战在于自动声明验证这一复杂任务，其要求模型不仅能理解声明语义，还需检索并融合外部证据进行综合推理。具体而言，声明真实性预测面临标签空间异构的难题，不同来源的核查标签（如“基本真实”“部分扭曲”）难以映射到统一尺度，且证据文档的噪声与冗余性增加了模型聚焦关键信息的难度。在构建过程中，研究团队遭遇了多源数据整合的挑战，包括网站爬虫的安全限制、异构元数据的标准化处理、重复声明的识别与清洗，以及证据页面随时间动态变化导致的检索结果不一致。这些挑战共同构成了一个非平凡的测试平台，最佳模型的宏平均F1值仅为49.2%，表明该领域仍存在广阔的提升空间。

常用场景

经典使用场景

在虚假信息泛滥的数字时代，MultiFC数据集为自动事实核查研究提供了关键支持。该数据集汇集了来自26个事实核查网站的34,918条自然发生的主张，每条主张均附有文本来源和丰富的元数据，并由专业记者进行真实性标注。其最经典的使用场景在于训练和评估端到端的自动事实核查模型，特别是那些需要同时处理证据检索与真实性预测的复杂系统。研究人员利用该数据集探索如何从海量网络信息中筛选相关证据，并基于多源信息综合判断主张的可信度，为应对社交媒体中的误导性内容提供了标准化测试平台。

解决学术问题

MultiFC数据集有效解决了自然语言处理领域多个关键学术问题。首先，它突破了以往数据集中人工构造主张的局限性，提供了大规模真实世界主张，使研究更贴近实际应用场景。其次，数据集的多领域特性（涵盖政治、社会、健康等主题）和异构标签空间（各网站使用不同的真实性评级体系）催生了新颖的多任务学习框架，使模型能够跨领域共享知识并处理标签语义差异。更重要的是，数据集首次系统性地整合了主张文本、证据文档和结构化元数据（如发言人、实体标签），为研究多模态信息融合、证据权重学习等前沿问题提供了理想实验环境。

衍生相关工作

基于MultiFC数据集已衍生出多个具有影响力的研究方向。在模型架构方面，研究者提出了联合证据排序与真实性预测的神经网络框架，通过端到端学习证据文档的权重分配。多任务学习方法的创新尤为突出，例如标签嵌入层技术被广泛应用于处理跨领域异构标签的映射问题。数据集还促进了元数据建模研究，包括如何有效编码发言人身份、实体链接信息等结构化特征。此外，该数据集常被用作基准测试平台，推动了基于BERT等预训练语言模型的证据感知事实核查系统的发展，并为研究时序因素对证据有效性的影响提供了数据基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集