News Media Provenance Dataset

Name: News Media Provenance Dataset
Creator: 斯坦福大学
Published: 2025-06-11 23:21:05
License: 暂无描述

arXiv2025-06-11 更新2025-06-13 收录

下载链接：

https://huggingface.co/datasets/matybohacek/ News-Media-Provenance-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

新闻媒体来源数据集是一个包含637篇新闻文章的集合，这些文章带有标注了来源信息的图像。该数据集旨在帮助评估新闻文章中图像的来源相关性和时间日期相关性。数据集中的每篇新闻文章都标注了与文章内容相关的地点和日期信息，这些信息是通过人工标注和语言模型生成的。数据集可用于研究和开发相关算法，以提高对新闻文章中图像真实性的判断能力。

The News Media Source Dataset is a curated collection of 637 news articles, each paired with images annotated with their source metadata. This dataset is designed to support the assessment of two critical attributes of images associated with news articles: their source relevance and temporal-date relevance. Every news article in the dataset includes annotations of location and date information relevant to its content, which are generated through a combination of manual annotation and large language models. This dataset can be employed for research and algorithm development aimed at enhancing the ability to verify the authenticity of images accompanying news articles.

提供机构：

斯坦福大学

创建时间：

2025-06-11

搜集汇总

数据集介绍

构建方式

News Media Provenance Dataset的构建过程体现了严谨的多模态数据整合策略。研究团队首先通过Webz.io新闻数据库获取原始新闻URL，采用改进的Newsarticle4k工具自动化抓取文章标题、正文、主图及图注等结构化信息。为确保数据质量，团队雇佣四名经过培训的标注员通过Argilla平台对图像来源进行人工标注，标注内容包括图像拍摄地点和时间等关键元数据。为增强数据多样性，研究还利用ChatGPT-4o生成与原文无关的替代性元数据，最终通过C2PA库将标注信息嵌入图像文件，形成包含相关、部分相关和不相关样本的平衡数据集。

特点

该数据集的核心价值在于其首创的新闻图像来源验证框架。数据集包含637篇新闻文章，每篇均配备经过严格标注的图像来源元数据，涵盖地理位置（LOR）和时间戳（DTOR）两个关键维度。区别于传统基于语义相关性的媒体验证方法，该数据集首次将来源真实性作为评估标准。数据分布显示文章平均长度705词，涵盖政治、地方新闻和犯罪等多元主题，来源包括yahoo、cbsnews等主流媒体，确保了内容的代表性和时效性。特别设计的负样本生成机制为模型训练提供了宝贵的对比学习材料。

使用方法

该数据集主要支持两项创新性评估任务：来源地相关性判断（LOR）和拍摄时间相关性判断（DTOR）。使用时需将新闻文本（标题和正文）与图像元数据进行匹配分析，无需直接处理图像像素数据。基准测试表明，现有大型语言模型在LOR任务上表现良好（最高准确率81%），但在DTOR任务上普遍低于58%，揭示了时间推理能力的不足。研究人员建议将该数据集用于：1）开发专门的媒体来源验证模型；2）评估模型的时间空间推理能力；3）作为虚假新闻检测系统的补充验证模块。所有实验脚本和预测数据均已开源以确保可复现性。

背景与挑战

背景概述

News Media Provenance Dataset是由Tomas Peterka和Matyas Bohacek于2025年提出的一个新闻文章数据集，旨在解决当前信息生态系统中图像和视频被错误使用或误导性呈现的问题。该数据集包含637篇新闻文章，每篇文章都附带有来源标记的图像，这些标记包括图像的拍摄地点和时间。数据集的核心研究问题是评估图像来源信息（如拍摄地点和时间）与新闻文章内容的相关性，从而帮助识别出上下文不符或被错误归因的媒体内容。该数据集的推出为自然语言处理领域提供了首个专注于媒体来源相关性的基准数据集，填补了现有研究在媒体来源真实性评估方面的空白。

当前挑战

News Media Provenance Dataset面临的挑战主要包括两个方面：领域问题的挑战和构建过程的挑战。在领域问题方面，该数据集旨在解决图像和视频在新闻中被错误使用或误导性呈现的问题，但现有方法往往仅关注图像语义与文本叙述的一致性，而忽略了拍摄时间和地点的重要性。在构建过程中，数据集面临标注可靠性的挑战，例如标注者在提供图像拍摄时间和地点时的准确性问题（时间标注准确率为56%，地点标注准确率为80%）。此外，由于新闻机构尚未广泛采用来源元数据标准（如C2PA），数据集不得不通过人工标注和模拟生成的方式构建来源信息，这在一定程度上限制了数据的真实性和覆盖范围。

常用场景

经典使用场景

News Media Provenance Dataset在新闻可信度评估领域具有重要应用价值，尤其在检测图像与新闻内容时空一致性方面表现突出。该数据集通过标注图像的来源位置（LOR）和拍摄时间（DTOR）元数据，为研究者提供了验证新闻图像是否被篡改或误用的基准工具。其典型使用场景包括训练模型识别出那些语义相关但时空信息不符的误导性配图，例如将历史事件图片挪用至当下新闻报道的虚假信息传播案例。

衍生相关工作

该数据集已启发多项延伸研究，包括开发专门处理时空元数据的多模态架构TEMP-CLIP，以及结合区块链的新闻溯源系统ProvenanceChain。相关团队进一步扩展了数据集规模，推出包含视频元数据的NMPD-VID版本。在跨语言应用方面，基于该数据集构建的CrossProve框架已支持对非英语新闻的时空一致性检测。

数据集最近研究