five

TSVER

收藏
arXiv2025-11-03 更新2025-11-06 收录
下载链接:
https://ourworldindata.org
下载链接
链接失效反馈
官方服务:
资源简介:
TSVER是一个新的基准数据集,用于评估基于时间序列证据的事实核查系统的性能。该数据集包含287条来自38个事实核查组织的真实世界声明,以及一个包含400个时间序列的精选数据库,覆盖了广泛的领域。每个声明都与所有相关时间序列的时间框架进行了标注,并附有反映证据如何用于得出判决的判决和理由。使用LLM辅助的多步标注过程,我们提高了标注质量,并在判决上达到了κ =0.745的标注者间协议。我们还开发了一个基准,用于验证基于时间序列证据的声明,并表明即使是像Gemini-2.5-Pro这样的最先进的推理模型也面临着挑战,在判决上达到了63.37的准确率,在证据理由上达到了48.63的Ev2R得分。

TSVER is a novel benchmark dataset for evaluating the performance of fact-checking systems based on time-series evidence. This dataset contains 287 real-world claims sourced from 38 fact-checking organizations, along with a curated database of 400 time series spanning a wide range of domains. Each claim is annotated with the temporal ranges of all relevant time series, and accompanied by a verdict and rationale that reflect how the evidence was used to arrive at the final judgment. Adopting an LLM-assisted multi-step annotation pipeline, we improved the quality of annotations and achieved an inter-annotator agreement of κ = 0.745 on the verdict task. We also developed a benchmark for verifying claims based on time-series evidence, and demonstrated that even state-of-the-art reasoning models such as Gemini-2.5-Pro face significant challenges, attaining an accuracy of 63.37% on verdict prediction and an Ev2R score of 48.63 on evidence rationale evaluation.
提供机构:
剑桥大学计算机科学与技术系
创建时间:
2025-11-03
搜集汇总
数据集介绍
main_image_url
构建方式
在时间序列事实验证研究领域,TSVER数据集通过多阶段标注流程构建而成。研究团队从38家事实核查机构收集了287个真实世界声明,并基于Our World in Data平台精心筛选了400个涵盖多领域的时间序列数据集。采用大语言模型辅助的多轮标注机制,首先由标注者基于事实核查文章选择相关时间序列并确定有效时间范围,随后由另一组标注者根据证据生成验证结论和解释说明。通过GPT-4o生成数值化陈述供标注者参考,显著提升了标注质量,最终在验证结论上达到了κ=0.745的标注者间一致性指标。
特点
该数据集在事实验证基准中展现出独特优势,其核心特征体现在证据模态的创新性上。作为首个专门针对时间序列证据设计的事实验证基准,TSVER突破了传统文本和表格证据的局限,要求模型处理具有时序结构和数值特征的连续数据。数据集包含的时间序列平均约2万条记录,部分超过21.7万条,为高容量真实世界数据验证带来新挑战。每个声明均标注了相关时间范围、验证结论和基于证据的详细解释,特别强调数值推理和时间范围选择的准确性,有效模拟了现实世界中政治人物常通过选择性时间范围支持主张的实践场景。
使用方法
在应用该数据集进行模型评估时,研究者可采用基准验证流程展开系统性测试。该流程包含时间序列检索与验证生成两个核心组件,首先基于时间序列的文本元数据通过少样本提示识别相关证据,随后加载指定时间范围的数据切片并生成验证结论及支持性解释。由于时间序列数据量庞大,需采用额外过滤机制识别相关时间范围和地理区域,避免超出模型上下文限制。评估指标除标准的验证预测指标外,还引入了时间序列覆盖度评分和Ev2R解释评估指标,分别衡量证据检索的时空对齐精度和生成解释的事实一致性,为模型的时间序列推理能力提供多维度评估框架。
背景与挑战
背景概述
随着社交媒体与生成式人工智能的广泛应用,虚假与误导性信息呈现爆炸式增长,推动了自动化事实核查系统的快速发展。剑桥大学计算机科学与技术系的Marek Strong与Andreas Vlachos团队于2025年提出TSVER基准数据集,聚焦于基于时间序列证据的事实验证任务。该数据集包含来自38家事实核查机构的287条真实世界声明,并整合了涵盖多领域的400条时间序列数据,旨在解决现有数据集在结构化证据缺失、判决依据不足及合成声明依赖等方面的局限性。TSVER通过引入时间范围标注与多步骤LLM辅助标注流程,显著提升了时间与数值推理的评估质量,为复杂时序数据分析提供了重要研究基础。
当前挑战
TSVER针对时间序列事实验证的核心挑战在于模型需同时处理数值计算与时间逻辑推理。具体而言,声明验证要求系统从海量时间序列中精准检索相关数据,识别关键时间范围并解析数值趋势,而现有模型在时序对齐与多周期对比中表现欠佳。构建过程中,数据对齐面临语义相似指标混淆与多源证据整合的复杂性,例如区分累计排放量与人均排放量等近义指标。此外,时间序列的高维度特性与长上下文需求导致输入长度频繁超出模型负载极限,凸显了高效时序表示与检索机制的迫切需求。
常用场景
经典使用场景
在事实核查领域,TSVER数据集为基于时间序列证据的自动验证系统提供了标准测试平台。该数据集通过整合真实世界中的声明与对应的时间序列数据,构建了包含287个声明的基准测试集,涵盖气候变化、经济发展等多个关键领域。研究人员利用这一数据集评估模型在时间序列证据检索、时间范围识别以及数值推理等方面的综合能力,为开发更可靠的事实核查系统奠定基础。
实际应用
在现实应用中,TSVER数据集为新闻机构和社会媒体平台提供了强大的事实核查工具开发基础。通过模拟真实世界中政治家、公众人物发布的涉及经济指标、环境数据等时间敏感声明,该数据集训练的系统能够快速验证声明的准确性。例如在气候变化政策辩论中,系统可自动核查减排承诺与历史排放数据的匹配程度,有效遏制选择性使用数据的误导行为。
衍生相关工作
基于TSVER数据集的研究推动了多个重要方向的发展。在证据检索方面,研究者提出了时间序列覆盖评分(TSCS)等新型评估指标;在推理模型方面,催生了专门针对时序数据的编码器和表示学习方法。该数据集还启发了对大型语言模型时序推理能力的系统性评估,促使研究者开发更高效的时序数据压缩和表示技术,为多模态事实核查系统的构建提供了重要参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作