QuanTemp++
收藏arXiv2025-10-25 更新2025-11-05 收录
下载链接:
https://github.com/VenkteshV/QuanTemp_Plus
下载链接
链接失效反馈官方服务:
资源简介:
QuanTemp++是一个由自然数值主张、开放领域语料库以及每个主张对应的相关证据组成的真实数据集。该数据集旨在通过模拟人类事实核查员的方法,收集相关证据,确保没有时间泄露。数据集包含大约15k个自然数值主张,165.7k条记录的开放领域语料库,以及每个主张的相关性标签和真实性标签。QuanTemp++通过模拟人类事实核查员的搜索过程,收集了高质量的证据,有助于更真实地评估和理解自动事实核查中的检索和验证瓶颈。
提供机构:
Stockholm University,Sweden; Independent Researcher; Delft University of Technology,Netherlands
创建时间:
2025-10-25
搜集汇总
数据集介绍

构建方式
在开放领域数值事实核查研究领域,QuanTemp++数据集的构建采用了创新的FCDecomp方法模拟人类事实核查员的搜索过程。该方法基于大语言模型的少样本学习能力,通过分析原始声明及其人工核查文档生成涵盖数值与时间维度的多样化搜索查询,平均每个声明生成6.76个独立查询。证据收集阶段严格采用时间过滤机制,通过before:参数确保所有证据均在声明发布日期前发布,同时过滤了150余个事实核查网站的文档,有效避免了时间泄漏和黄金证据泄漏问题。
特点
该数据集的核心特征体现在其真实性与专业性上。作为专门针对自然数值声明的开放领域基准,包含约1.5万条真实世界声明和16.57万条证据记录,所有声明均源自实际事实核查场景。数据集特别强调数值推理能力,要求模型理解数值模式、算术运算和数据解释等数学概念。通过严格的证据质量控制机制,确保了证据的时效性与相关性,为开发具有实际部署价值的自动化事实核查系统提供了高质量的训练与评估环境。
使用方法
在应用层面,QuanTemp++支持完整的事实核查流程评估。研究者可基于FCDecomp生成的查询进行开放领域证据检索,利用Contriever等检索模型获取前k个相关证据。验证阶段将检索到的证据与声明共同输入自然语言推理模型进行可验证性预测,最佳实践表明设置k=3时能获得最优性能。数据集特别适合评估声明分解方法在检索质量和下游验证任务中的表现,为研究检索-验证性能差距提供了标准化实验框架。
背景与挑战
背景概述
在数字信息泛滥的时代,数值声明的自动验证成为应对虚假信息的关键挑战。QuanTemp++数据集由斯德哥尔摩大学和代尔夫特理工大学的研究团队于2025年创建,旨在解决开放领域数值事实核查的核心问题。该数据集包含约1.5万条自然数值声明及16.57万条证据记录,通过模拟人类事实核查员的声明分解流程,显著提升了证据收集质量。其创新性在于彻底消除了时间泄露和黄金证据泄露问题,为开发可靠的自动化核查系统提供了坚实基础,推动了信息检索与自然语言处理领域的交叉研究进展。
当前挑战
数值声明验证面临双重挑战:在领域问题层面,需克服数值信息特有的‘真实性幻觉效应’,要求系统具备数值推理、时序理解和多维度证据融合能力;在构建过程中,既要通过弱监督方法扩展原始QuanTemp数据集以控制标注成本,又需设计FCDecomp机制模拟人类核查员的搜索逻辑,同时严格过滤事后证据与事实核查网站内容以维持数据纯净性。这些挑战共同凸显了在开放环境中平衡证据相关性与时序一致性的复杂性。
常用场景
经典使用场景
在开放领域数值事实核查研究中,QuanTemp++数据集为验证包含定量或时间信息的自然数值声明提供了标准测试平台。该数据集通过模拟人类事实核查员的搜索过程,将复杂声明分解为多个子查询,从开放网络收集相关证据,有效支持证据检索和声明验证两个关键任务的评估。研究人员利用该数据集训练和测试自动化事实核查系统,特别是在处理政治辩论、新闻报道中常见的数值声明时,能够评估系统在真实场景下的数值推理能力和证据检索质量。
衍生相关工作
QuanTemp++的发布催生了多项重要的后续研究。基于其提出的FCDecomp声明分解方法,研究人员开发了QGen等查询生成模型,实现了无需人工标注的自动化证据检索。该数据集还启发了对检索-验证性能差距的深入分析,推动了端到端事实核查系统的优化。在模型架构方面,衍生出结合最大边际相关性的证据融合方法CombMAX-Norm,显著提升了多证据源下的验证性能。这些工作共同构成了数值事实核查领域的重要技术演进。
数据集最近研究
最新研究方向
在开放领域数值事实核查研究中,QuanTemp++数据集通过模拟人工核查员的声明分解流程,显著提升了证据检索质量与时效性控制。该数据集聚焦于消除时间泄漏与黄金证据泄漏问题,采用FCDecomp方法生成多样化查询,覆盖数值声明的显性与隐性维度。前沿研究揭示了检索性能与下游验证任务间的差距,推动开发端到端优化的声明分解机制,以增强数值上下文理解能力,为构建真实场景下的自动化核查系统提供关键支撑。
相关研究论文
- 1通过Stockholm University,Sweden; Independent Researcher; Delft University of Technology,Netherlands · 2025年
以上内容由遇见数据集搜集并总结生成



