five

LiveFact

收藏
arXiv2026-04-07 更新2026-04-07 收录
下载链接:
https://github.com/bebxy/livefact
下载链接
链接失效反馈
官方服务:
资源简介:
LiveFact是由都柏林大学学院、Bebxy等机构联合开发的动态时序基准数据集,旨在解决大语言模型在虚假新闻检测中的时效性推理与数据污染问题。该数据集通过实时爬取高影响力新闻事件构建,采用时间切片证据集(如事件前3天至后3天的动态证据)模拟真实信息演化场景,每月更新以确保数据新鲜度。其创新性体现在双模态评估框架(分类模式与推理模式)和语义敏感度放大器(SSA)的污染监控机制,专为测试模型在信息不完整条件下的时序推理能力而设计,推动AI验证系统在动态环境中的鲁棒性发展。
提供机构:
都柏林大学学院; 佐治亚理工学院; 大连理工大学; Bebxy
创建时间:
2026-04-07
原始信息汇总

数据集概述

基本信息

  • 数据集名称:livefact
  • 仓库地址:https://github.com/bebxy/livefact

数据集描述

  • 该数据集详情页面未提供具体的描述信息。
搜集汇总
数据集介绍
main_image_url
构建方式
在虚假新闻检测领域,传统静态数据集难以适应大语言模型(LLM)的动态推理需求。LiveFact采用持续更新的构建范式,通过自动化月度流水线整合实时新闻事件。该流程始于从Google News API每日抓取高影响力事件,经过去重过滤后形成核心事件集。随后,基于事件标题日期构建时间切片证据集(E(-3)、E(0)、E(+3)),模拟信息演化的“战争迷雾”。利用先进LLM合成背景语境与三类标注(真实、虚假、模糊)的声明,最后通过严格的人工循环验证确保标注质量,并引入实体转移机制生成平行数据以监控基准数据污染。
特点
LiveFact的核心特征体现在其动态性、时间感知与污染控制三重维度。作为首个持续更新的虚假新闻检测基准,它通过月度发布机制确保评估数据的前沿性,有效规避模型记忆风险。数据集创新性地引入时间切片证据结构,要求模型在信息不完整的早期阶段展现认知谦逊,正确识别不可验证声明。其双模式评估框架将分类模式与推理模式分离,前者检验最终事实核查能力,后者专注基于证据的时序推理。此外,数据集集成了语义敏感度放大器框架,通过实体转移机制量化记忆依赖,为评估模型的稳健推理能力提供了可靠保障。
使用方法
使用LiveFact进行评估时,研究者需遵循其结构化任务定义。模型接收特定时间偏移δ的证据集E(δ)、声明文本及静态背景语境,输出[[真实]]、[[虚假]]或[[模糊]]的判定。评估应分别在分类模式与推理模式下进行:分类模式以声明的终极事实标签为基准,检验模型的确定性知识;推理模式则根据时间切片证据的充分性动态调整真实标签,检验模型在信息不完全时的合理推断能力。研究者可通过比较不同时间切片的性能演化分析模型的时序适应性,并利用实体转移数据集计算SSA因子,量化模型对特定实体记忆的依赖程度,从而全面评估其抗污染推理能力。
背景与挑战
背景概述
随着大语言模型(LLM)的快速发展,虚假新闻检测与事实核查任务已从简单的分类演变为复杂的推理过程。然而,现有的评估框架未能同步跟进,静态基准数据集易受基准数据污染(BDC)的影响,且难以评估模型在时间不确定性下的推理能力。为此,由都柏林大学学院、佐治亚理工学院、大连理工大学及Bebxy的研究团队于2026年共同提出了LiveFact数据集。该数据集旨在模拟现实世界中信息检测的“战争迷雾”,通过动态、时间感知的证据集来评估模型基于演化且不完整信息进行推理的能力,而非依赖记忆知识。LiveFact的推出为相关领域设立了可持续的评估标准,推动了时态感知AI验证系统的稳健发展。
当前挑战
LiveFact数据集致力于解决虚假新闻检测领域的核心挑战,即评估大语言模型在动态、时变信息环境下的复杂推理能力,而非简单的图像或文本分类。具体挑战包括:在领域问题层面,传统静态基准无法捕捉实时信息的演化,导致模型可能依赖记忆而非真正推理,且难以处理证据不足时的模糊性判断;在构建过程中,需实现数据的持续月度更新以对抗基准数据污染,同时设计时间切片证据集来模拟信息随时间的演变,并引入双模式评估机制以区分模型的推理技能与内部知识,这些都对数据采集、标注及验证流程提出了较高要求。
常用场景
经典使用场景
在虚假新闻检测与事实核查领域,LiveFact数据集最经典的使用场景是评估大型语言模型在动态、时间敏感环境下的推理能力。该数据集通过模拟真实世界中的“战争迷雾”,为模型提供随时间演进的证据切片,要求其在不完整或不断更新的信息流中进行事实验证。研究者通常利用LiveFact的双模式评估框架,在分类模式下测试模型的最终事实判定准确性,在推理模式下检验其基于有限证据进行逻辑推断并识别信息缺口的能力,从而全面衡量模型在应对实时新闻演变时的鲁棒性与适应性。
衍生相关工作
LiveFact数据集衍生了一系列关注时序推理与污染抵抗的后续研究。其双模式评估启发了对模型“信心校准”与“不确定性量化”能力的深入探索,促使工作如Epistemic-Check专注于测量模型在开放域声明下的自知程度。数据集采用的语义敏感度放大器框架被扩展用于构建更广泛的污染检测基准,例如ContamEval,系统化评估模型在多种任务上的记忆泛化。同时,LiveFact的时间切片证据设计催生了TempReason系列研究,这些工作进一步将时序推理与多跳检索结合,推动了在流式信息环境下的可解释事实核查系统的发展。
数据集最近研究
最新研究方向
在虚假新闻检测领域,LiveFact数据集的前沿研究聚焦于动态时间感知评估范式的构建,以应对大语言模型时代静态基准的局限性。该数据集通过模拟真实世界信息传播中的“战争迷雾”,引入连续更新的时间切片证据集,推动研究从单纯的知识检索转向基于不完全信息的时序推理能力评估。相关热点事件包括开源混合专家模型(如Qwen3-235B-A22B)在成本效益上超越专有系统,以及“推理鸿沟”现象的揭示——即模型在早期证据不足时表现出的认知谦逊特性。这一研究方向对构建鲁棒、可解释且适应实时信息生态的AI验证系统具有深远意义,为虚假新闻检测的评估设立了可持续演进的新标准。
相关研究论文
  • 1
    LiveFact: A Dynamic, Time-Aware Benchmark for LLM-Driven Fake News Detection都柏林大学学院; 佐治亚理工学院; 大连理工大学; Bebxy · 2026年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作