Factify 2
收藏arXiv2023-10-02 更新2024-06-21 收录
下载链接:
https://github.com/surya1701/Factify-2.0
下载链接
链接失效反馈官方服务:
资源简介:
Factify 2是由印度国际信息技术学院和美国南卡罗来纳大学等机构合作创建的多模态事实验证数据集,包含50,000个数据实例,涵盖了文本和图像两种模态。该数据集通过收集来自Twitter和多个新闻网站的数据,包括真实新闻和讽刺文章,旨在支持自动事实检查技术的发展。数据集分为支持、无证据和反驳三个主要类别,每个类别下又根据视觉和文本数据的包含情况进一步细分。Factify 2的应用领域主要集中在社交媒体上的假新闻检测,旨在通过机器学习方法提高事实验证的自动化水平。
Factify 2 is a multimodal fact verification dataset co-developed by institutions including the International Institute of Information Technology, India and the University of South Carolina, United States. It contains 50,000 data instances covering two modalities: text and image. By collecting data from Twitter and multiple news websites, including real news and satirical articles, this dataset is intended to support the advancement of automated fact-checking technologies. The dataset is categorized into three main classes: SUPPORTED, NO EVIDENCE, and REFUTED, with each class further subdivided based on the availability of visual and textual data. The primary application scenario of Factify 2 is fake news detection on social media, aiming to enhance the automation of fact verification through machine learning approaches.
提供机构:
印度国际信息技术学院
创建时间:
2023-04-08
搜集汇总
数据集介绍

构建方式
在社交媒体信息泛滥的时代,虚假新闻的识别成为一项紧迫挑战。Factify 2数据集的构建采用了双管道策略,分别针对真实新闻与虚假新闻进行采集。首先,从印度和美国的知名新闻机构推特账号中提取推文,利用Sentence BERT模型进行文本相似度比对,结合ResNet50嵌入与直方图相似度评估图像关联性,从而划分支持与证据不足类别。其次,从Snopes等事实核查网站及Fauxy等讽刺新闻平台抓取数据,通过手动标注与图像搜索,扩充反驳类别并引入讽刺性内容,最终形成包含五万条平衡样本的多模态数据集。
特点
Factify 2作为多模态事实核查数据集,其核心特点在于融合文本与视觉信息,并引入讽刺新闻这一新颖维度。数据集涵盖支持、证据不足与反驳三大类别,并进一步细分为文本支持、多模态支持、文本证据不足、多模态证据不足及反驳五个子类,细致刻画了声明与文档之间的蕴含关系。数据样本均衡分布,各含一万条实例,且训练、验证与测试集按70:15:15比例划分。其内容聚焦政治与公共卫生议题,词汇多样性通过n-gram分析得以体现,为模型训练提供了丰富的语言与视觉线索。
使用方法
该数据集适用于多模态蕴含任务,旨在通过联合分析文本声明与对应文档的图像及文本来验证声明的真实性。研究人员可基于提供的基线模型架构,利用Vision Transformer提取视觉特征,并结合Sentence BERT生成文本嵌入,将多模态特征融合后通过多层感知机进行分类。数据集支持模型在五分类任务上的性能评估,促进跨模态注意力机制、对抗性训练等先进方法的发展。此外,其包含的讽刺新闻样本为探究虚假信息的修辞风格与传播模式提供了独特视角,有助于推动更鲁棒的事实核查系统构建。
背景与挑战
背景概述
随着社交媒体平台成为新闻传播的核心渠道,虚假信息的泛滥已成为社会关注的焦点。Factify 2数据集由印度国际信息技术学院、南卡罗来纳大学、卡内基梅隆大学等机构的跨学科研究团队于2023年发布,旨在应对多模态虚假新闻检测的迫切需求。该数据集作为Factify系列的迭代版本,扩展了数据规模至五万个实例,并创新性地引入了讽刺新闻类别,以更全面地模拟真实世界的信息生态。其核心研究问题聚焦于通过文本与图像的联合推理,实现自动化事实核查,为多模态自然语言处理与计算机视觉的交叉领域提供了关键基准,推动了虚假新闻检测技术向更细粒度、更符合实际应用场景的方向发展。
当前挑战
Factify 2数据集所针对的多模态事实核查任务面临双重挑战。在领域问题层面,虚假新闻检测需克服模态间语义对齐的复杂性,例如图像与文本可能呈现微妙矛盾或虚假关联,要求模型具备深层次的跨模态推理能力,而非简单特征拼接。此外,讽刺新闻的识别增加了意图理解的难度,因其表面形式与真实新闻相似,但隐含虚假意图,对模型的语义理解与上下文推断提出了更高要求。在构建过程中,数据收集面临真实性与多样性平衡的挑战,需从推特新闻账号、事实核查网站及讽刺新闻平台等多源异构数据中筛选、对齐与标注,确保类别均衡与质量可控,同时避免政治与文化偏见在数据中的过度体现。
常用场景
经典使用场景
在社交媒体时代,虚假新闻的传播已成为全球性挑战,Factify 2数据集作为多模态事实核查领域的重要资源,其经典使用场景在于支持基于深度学习的多模态虚假新闻检测模型的研究与开发。该数据集通过整合文本和图像两种模态,提供了涵盖支持、无证据和反驳三类标签的50,000个数据实例,使研究人员能够构建和评估能够同时理解文本内容和视觉信息的复杂模型。例如,基于Transformer架构的模型可以利用该数据集进行端到端的训练,以识别新闻声明与其支持文档之间的蕴含关系,从而在自动化事实核查任务中实现更高的准确性和鲁棒性。
实际应用
在实际应用层面,Factify 2数据集为构建自动化事实核查系统和社交媒体内容审核工具提供了关键支持。新闻机构和社交媒体平台可利用基于该数据集训练的模型,实时筛查用户生成内容中的疑似虚假信息,尤其是在政治选举和公共卫生事件等关键时期。例如,系统可以自动比对新闻声明与可信来源的多模态证据,快速标记出矛盾或缺乏支持的帖子,辅助人工审核员优先处理高风险内容。这种技术应用有助于遏制虚假信息的扩散,提升网络信息生态的可靠性,并在一定程度上减轻虚假新闻对社会稳定和公共安全的潜在危害。
衍生相关工作
围绕Factify 2数据集,学术界已衍生出一系列经典研究工作,主要集中在多模态融合与模型优化方向。例如,研究人员借鉴其基线模型架构,探索了基于Vision Transformer和Sentence-BERT的改进方案,以提升视觉与文本特征的提取效率。同时,该数据集也催生了如跨模态注意力残差网络、多通道卷积神经网络等新型模型,这些工作旨在更好地处理模态间的噪声并增强语义交互。此外,一些研究进一步利用该数据集的讽刺新闻子类,深入分析虚假内容的修辞特征,推动了细粒度虚假新闻分类和可解释性人工智能的发展,为后续多模态事实核查技术的演进奠定了坚实基础。
以上内容由遇见数据集搜集并总结生成



