PolitiFact新闻数据集

Name: PolitiFact新闻数据集
Creator: 伦敦大学学院计算机科学系
Published: 2025-05-20 00:20:54
License: 暂无描述

arXiv2025-05-20 更新2025-05-21 收录

下载链接：

https://github.com/3lis/misinfo_vlm

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个由伦敦大学学院计算机科学系创建的多模态数据集，包含来自PolitiFact网站的200条政治新闻，每条新闻都配有相应的图片和真实标签。数据集旨在研究视觉内容如何影响视觉语言模型在新闻内容分享中的行为，特别是对虚假新闻的影响。数据集的创建过程包括从PolitiFact网站收集新闻文本、图片和专家验证标签，并对新闻进行分类和标注。该数据集适用于研究视觉内容在新闻分享中的作用，以及如何解决虚假新闻传播的问题。

This is a multimodal dataset created by the Department of Computer Science, University College London. It contains 200 political news articles from the PolitiFact website, with each news item paired with corresponding images and ground-truth labels. This dataset aims to investigate how visual content influences the behavior of vision-language models during news content sharing, particularly in the context of fake news. The dataset construction process includes collecting news texts, images and expert-validated labels from the PolitiFact website, as well as classifying and annotating the news articles. This dataset is applicable to research on the role of visual content in news sharing and approaches to addressing the spread of fake news.

提供机构：

伦敦大学学院计算机科学系

创建时间：

2025-05-20

原始信息汇总

数据集概述：Visual Misinformation in Vision-Language Models

数据集基本信息

研究主题：视觉语言模型（VLMs）中图像对错误信息传播行为的影响
数据集来源：PolitiFact新闻文章
数据集规模：200条新闻项目
数据类型：文本新闻内容与相关图像
版权声明：数据集可能包含受版权保护的第三方内容，仅限非商业研究和教育用途

数据集内容

文本数据

文件路径：data/news_200.json
内容：200条新闻的文本内容

图像数据

存储位置：imgs/目录
下载链接：200-News Dataset (Google Drive)
注意事项：需手动下载后放置在与src/和data/同级目录

辅助数据文件

dialogs_user.json：第三人称框架的提示模板
dialogs_asst.json：第二人称框架的提示模板
demo_small.json：人口统计属性定义
trait.json：人物提示的特质关键词定义

技术信息

编程语言：Python 3.12.3
依赖管理：通过pip install -r requirements.txt安装
特殊说明：crawl.py需在独立虚拟环境中使用numpy==1.12.1运行

使用许可

许可证类型：MIT License

搜集汇总

数据集介绍

构建方式

PolitiFact新闻数据集构建于专业的事实核查平台PolitiFact，该平台通过专业记者团队对政治人物、公众人物及媒体声明的准确性进行六档分级评估。研究团队采用自动化流程系统提取了200篇新闻条目（100篇真实新闻与100篇虚假新闻），每条数据均包含标题、来源摘要、原始图片及专业标注的真实性标签。为确保数据质量，通过GPT-4o过滤含显性真实性表述的非英语内容，并采用YOLOv8算法对图片中人物主导性进行量化标注（阈值设定为40%视觉占比），最终形成平衡覆盖政治、经济、健康等8大主题的多模态语料库。

使用方法

使用本数据集需遵循多阶段分析框架：预处理阶段建议采用分层抽样平衡不同主题和真实性标签的样本分布；模型评估时可通过对比实验设计（文本单模态vs图文多模态输入）探究视觉信息的影响机制；对于人格特质研究，应结合附录提供的标准化人格诱导提示词库。需特别注意第三方视角的提示策略（third-person prompting），该技术能有效规避模型安全机制对负面人格模拟的抑制。实验设计推荐采用Wilcoxon符号秩检验分析图文模态差异，并配合混合效应模型解析真实性、主题与视觉内容的交互作用。

背景与挑战

背景概述

PolitiFact新闻数据集由伦敦大学学院（University College London）的研究团队于2025年创建，旨在研究视觉语言模型（VLMs）在新闻推荐系统中传播错误信息的潜在风险。该数据集基于美国政治事实核查网站PolitiFact的权威标注，包含200条图文配对的政治新闻，其中100条被标记为真实新闻，100条被标记为虚假新闻。数据集的核心研究问题聚焦于图像如何影响VLMs对新闻可信度的判断及其分享行为，填补了多模态错误信息研究领域的空白。该研究揭示了视觉内容对模型行为的影响机制，为个性化AI系统的风险评估提供了重要基准。

当前挑战

该数据集面临双重挑战：在领域问题层面，需解决视觉语言模型对图文融合信息的敏感性差异问题，特别是虚假新闻在图像加持下分享率增加15%的现象；在构建层面存在三大难点：1) 需平衡政治倾向对标注的影响，避免引入人为偏见；2) 处理模型对反社会人格特质的模拟抗拒，需设计创新的'越狱'式提示策略；3) 确保多模态数据的时效性与完整性，克服社交媒体链接失效等问题。此外，数据集的美国政治新闻单一性也限制了其在跨文化场景下的泛化能力。

常用场景

经典使用场景

PolitiFact新闻数据集在视觉语言模型（VLMs）研究中扮演了关键角色，特别是在探索图像如何影响模型对新闻内容的分享行为方面。该数据集通过结合文本新闻与对应图像，并标注真实性与政治倾向，为研究者提供了分析VLMs在视觉信息处理中潜在偏见的实验基础。其经典使用场景包括模拟社交媒体用户在不同人格特质和政治立场下对真假新闻的转发决策，揭示了图像存在对虚假新闻分享率的显著提升效应。

解决学术问题

该数据集解决了多模态人工智能领域的关键问题：量化视觉内容如何加剧VLMs传播错误信息的风险。通过控制新闻真实性、图像属性和人格诱导变量，研究首次证实图像使VLMs分享虚假新闻的概率提升15%，远超真实新闻的4.8%增幅。此外，数据集中政治立场与人格特质的标注，为探究模型行为与人类认知偏差的关联提供了实证基础，填补了个性化AI系统评估框架的空白。

实际应用

在实际应用中，PolitiFact数据集被用于开发针对个性化推荐系统的安全防护机制。新闻平台通过模拟不同用户画像下的模型行为，可识别易受视觉误导的高风险群体（如具有黑暗三联征特质或共和党倾向的虚拟用户）。该数据集还支持构建多模态事实核查工具，帮助检测图文组合型虚假信息，特别是在政治选举和公共卫生等敏感领域。

数据集最近研究