TRANSIENTTABLES
收藏arXiv2025-04-03 更新2025-04-07 收录
下载链接:
https://transienttables.github.io
下载链接
链接失效反馈官方服务:
资源简介:
TRANSIENTTABLES数据集是一个关于时态演化半结构化表格数据的问题回答数据集。该数据集由犹他大学等机构创建,包含从超过14000个表格中提取的3971个问题,涵盖了1238个实体跨越多个时间段的演变信息。数据集通过半自动化方法生成问题,旨在评估大型语言模型在处理时态演化信息方面的推理能力。
The TRANSIENTTABLES Dataset is a question answering dataset focused on temporally evolving semi-structured tabular data. Developed by institutions including the University of Utah and other organizations, this dataset contains 3,971 questions extracted from over 14,000 tables, covering the evolutionary information of 1,238 entities across multiple time periods. Questions in this dataset were generated via a semi-automated methodology, aiming to evaluate the reasoning capabilities of large language models when handling temporally evolving information.
提供机构:
加州大学圣地亚哥分校, 犹他大学, 宾夕法尼亚大学, 亚利桑那州立大学
创建时间:
2025-04-03
搜集汇总
数据集介绍

构建方式
TRANSIENTTABLES数据集的构建采用了多阶段半自动化流程,首先从维基百科Infobox中提取14,133个动态表格,覆盖1,238个实体在不同时间节点的演变轨迹。通过设计类别特定的模板体系(如板球队类别包含10-15个问题模板),结合GPT-4o的语义优化,生成需要跨时间推理的3,971个问题。关键创新在于时间轴清洗策略:设定类别差异化阈值(如板球队需至少3个关键属性变化)过滤冗余版本,并采用人工校验消除破坏性编辑噪声,最终形成平均每个实体11.42个时间片段的标准化数据。
特点
该数据集的核心特征体现在时空维度的双重复杂性:时间层面包含2,985个隐含时间约束问题和986个显式时间问题,空间层面要求模型处理单表(1,118问)与多表(2,853问)的交叉推理。特别设计了9类推理任务,包括时序差异计算(676问)、极值判定(541问)和跨属性对比(350问)等。数据分布上,板球队(动态属性9维)、国家经济数据(周期性更新)等10个类别构成异构测试环境,其中61.3%问题需要同时处理多个关键属性的时变关系,为评估大语言模型的时序推理能力提供了多维基准。
使用方法
使用该数据集需遵循三级评估框架:在信息粒度层面,可采用封闭式(无上下文)、单时间片或完整时间轴三种输入模式;任务分解策略推荐分阶段处理时序定位(检索相关表格)、属性筛选(提取关键字段)和逻辑推理。实验表明,结合思维链(CoT)提示与信息检索-提取(IRE)方法能使GPT-4o达到60.44%的F1值。对于微调任务,建议至少使用1,000个样本,此时模型在完整时间轴设定下F1可达75.84%。注意需将表格转为JSON格式输入,并监控模型对预训练知识的依赖程度。
背景与挑战
背景概述
TRANSIENTTABLES数据集由UC San Diego、University of Utah、University of Pennsylvania和Arizona State University的研究团队于2025年提出,旨在评估大型语言模型(LLMs)在时间演化半结构化表格上的推理能力。该数据集包含3,971个问题,源自14,000多个表格,涵盖1,238个实体在不同时间点的数据。其核心研究问题是探索LLMs如何理解和推理随时间变化的信息,特别是在半结构化表格中。TRANSIENTTABLES通过模板化问题生成流程和基准测试,为时间推理研究提供了重要工具,填补了现有静态数据集的空白,推动了时间敏感型NLP任务的发展。
当前挑战
TRANSIENTTABLES面临的挑战主要包括两个方面:领域问题挑战和构建过程挑战。在领域问题方面,该数据集旨在解决LLMs在时间推理上的局限性,特别是处理半结构化表格中随时间变化的信息的能力。构建过程中的挑战包括:1) 从维基百科信息框中提取和清理时间序列数据,确保数据的准确性和一致性;2) 设计能够捕捉时间演变特性的问题模板;3) 处理表格数据中的噪声和不一致性;4) 平衡数据覆盖范围和模型输入长度限制;5) 开发有效的评估指标来衡量模型在时间推理任务上的表现。
常用场景
经典使用场景
TRANSIENTTABLES数据集主要用于评估大型语言模型(LLMs)在时间演化半结构化表格上的推理能力。该数据集通过从多个时间点的表格中生成问题,要求模型理解并推理随时间变化的信息。典型的使用场景包括模型在金融、体育、政治等领域中对动态数据的处理能力测试。例如,模型需要回答类似“在2017年至2023年间,印度板球队的教练是谁?”这样的问题,从而验证其时间推理能力。
解决学术问题
TRANSIENTTABLES数据集解决了大型语言模型在时间推理方面的关键学术问题。传统模型通常基于静态数据集训练,难以处理随时间变化的信息。该数据集通过提供多时间点的表格数据,帮助研究者评估和改进模型在时间推理、证据提取和多步推理方面的能力。其意义在于填补了时间推理研究的空白,并为未来模型优化提供了基准。
衍生相关工作
TRANSIENTTABLES数据集衍生了一系列相关研究,主要集中在时间推理和表格数据处理领域。例如,TempTabQA和TIQ等研究探索了时间敏感问题的问答技术。此外,该数据集还启发了任务分解方法的研究,通过将复杂的时间推理任务拆分为检索、提取和分析等子任务,显著提升了模型性能。这些工作进一步推动了时间推理领域的发展。
以上内容由遇见数据集搜集并总结生成



