RealTimeNews-25

Name: RealTimeNews-25
Creator: 南洋理工大学
Published: 2025-10-13 19:11:46
License: 暂无描述

arXiv2025-10-13 更新2025-11-19 收录

下载链接：

https://forms.office.com/pages/responsepage.aspx?id=DQSIkWdsW0yxEjajBLZtrQAAAAAAAAAAAAN__lChjFpUQlhZT1lFUU5HNkM2VzZJR1dZRDdLQjBMRC4u&route=shorturl

下载链接

链接失效反馈

官方服务：

资源简介：

RealTimeNews-25是一个包含3487篇新闻文章的新基准数据集，这些文章是在2024年6月至2025年9月间收集的，涵盖了近期和快速演变的事件。这些事件的特点是证据有限，为评估模型在实际的、时间敏感的场景中的鲁棒性提供了一个具有挑战性和及时性的基准。

RealTimeNews-25 is a novel benchmark dataset consisting of 3,487 news articles collected between June 2024 and September 2025, covering recent and rapidly evolving events. These events are characterized by limited evidence, providing a challenging and timely benchmark for evaluating the robustness of models in real-world, time-sensitive scenarios.

提供机构：

南洋理工大学

创建时间：

2025-10-13

搜集汇总

数据集介绍

构建方式

在虚假信息检测研究领域，构建具有时效性的数据集对于评估模型在证据稀缺环境下的泛化能力至关重要。RealTimeNews-25通过系统化数据收集流程，从NBC News、BBC News等权威媒体采集2024年6月至2025年9月期间发布的3,487篇新闻，覆盖政治、体育、商业等多个领域。为确保数据真实性，研究团队采用大语言模型驱动的合成管道对原始新闻进行语义保持的修改，包括替换关键实体、扭曲上下文逻辑及插入事实错误，并通过人工验证确保生成样本具有可验证的虚假特征。

使用方法

作为实时虚假新闻检测的评估基准，该数据集主要用于验证模型在有限证据条件下的推理能力。研究实践中需遵循严格的评估协议：首先通过多轮迭代检索机制获取网络证据，随后运用序列化评估框架分析证据充分性。当外部证据不足时，可激活基于大语言模型的内部推理模块，最终通过情感分析模块处理中性文本的检测挑战。数据集支持端到端训练范式，其分层标注体系为可解释性研究提供结构化支持。

背景与挑战

背景概述

RealTimeNews-25数据集由南京大学、特伦托大学和中国科学院等机构的研究团队于2025年联合构建，旨在应对实时虚假新闻检测中的证据稀缺难题。该数据集收录了2024年6月至2025年9月期间的3487条新闻，覆盖政治、体育等多领域新兴事件，其核心研究聚焦于在缺乏权威验证信息的场景下提升模型泛化能力。作为首个专攻实时新闻检测的基准数据集，它通过掩蔽原始信源的设计模拟真实环境，为信息完整性研究提供了关键实验基础。

当前挑战

该数据集主要面临双重挑战：在领域问题层面，需解决实时场景下证据稀缺导致的检测失效问题，例如冲突信源占比达37%的样本难以通过传统证据验证；在构建过程中，需克服新兴事件标注困难与数据污染的潜在风险，通过人工验证与LLM合成相结合的方式确保虚假新闻的语义逻辑一致性，同时避免模型依赖内部先验知识而产生偏差。

常用场景

经典使用场景

在虚假信息检测研究领域，RealTimeNews-25数据集作为评估模型在证据稀缺环境下泛化能力的重要基准，其经典应用场景集中于实时新闻真实性验证。该数据集通过收录2024至2025年间的突发新闻事件，模拟了现实场景中证据不足或相互矛盾的复杂情境，为研究动态演化事件的检测算法提供了标准化测试平台。

解决学术问题

该数据集有效解决了实时虚假新闻检测中的核心学术难题，即如何在权威证据匮乏时维持模型判断准确性。通过构建包含冲突证据与缺失证据的样本，推动了多模态评估机制、证据可信度量化、以及基于大语言模型的推理补偿等研究方向的发展，为突破传统依赖外部知识库的检测范式提供了关键数据支撑。

实际应用

在实际应用层面，该数据集支撑的检测框架可部署于社交媒体内容审核系统与新闻聚合平台，通过动态评估证据充分性实现早期虚假信息拦截。其多专家决策机制能适应突发新闻的时效性要求，在公共卫生事件、政治选举等高风险场景中为信息可信度评估提供自动化解决方案。

数据集最近研究