TEMPO

Name: TEMPO
Creator: 因斯布鲁克大学; 不列颠哥伦比亚大学
Published: 2026-01-14 22:45:20
License: 暂无描述

arXiv2026-01-14 更新2026-01-16 收录

下载链接：

https://github.com/tempo-bench/Tempo

下载链接

链接失效反馈

官方服务：

资源简介：

TEMPO是由因斯布鲁克大学和不列颠哥伦比亚大学联合推出的首个结合时间推理与跨领域推理密集型检索的基准数据集，涵盖区块链、社会科学、应用领域及STEM等13个领域。该数据集包含1,730条平均长度约300词的自然语言查询，配套3,976个分解检索步骤及黄金文档映射，支持多跳时间推理评估。数据来源于Stack Exchange平台的专家级问答，通过人工标注与LLM辅助构建，严格筛选具有时间演化分析、跨周期比较等复杂推理需求的查询。其创新性体现在引入时间覆盖率和精度指标，旨在解决现有检索系统在时间对齐证据获取与跨周期综合分析上的不足，推动时序感知检索与RAG系统的研究。

TEMPO is the first benchmark dataset integrating temporal reasoning and cross-domain retrieval-intensive reasoning, jointly developed by the University of Innsbruck and the University of British Columbia. It spans 13 domains including blockchain, social sciences, applied fields, STEM and others. This dataset comprises 1,730 natural language queries with an average length of approximately 300 words, paired with 3,976 decomposed retrieval steps and gold document mappings to support multi-hop temporal reasoning evaluation. The dataset is built from expert-level Q&A content on the Stack Exchange platform, constructed via manual annotation and LLM-assisted workflows, and strictly selects queries that require complex reasoning such as temporal evolution analysis and cross-period comparison. Its core innovation lies in introducing temporal coverage and precision metrics, aiming to address the shortcomings of existing retrieval systems in acquiring temporally aligned evidence and conducting comprehensive cross-period analysis, thereby advancing research on time-aware retrieval and RAG systems.

提供机构：

因斯布鲁克大学; 不列颠哥伦比亚大学

创建时间：

2026-01-14

原始信息汇总

TEMPO 数据集概述

数据集基本信息

数据集名称：TEMPO (A Realistic Multi-Domain Benchmark for Temporal Reasoning-Intensive Retrieval)
数据集地址：https://huggingface.co/datasets/tempo26/Tempo
许可证：MIT
发布日期：2026年1月（代码与指标发布）

核心特点

首个结合时序推理与推理密集型检索的基准：弥补了现有基准的不足。
复杂查询：包含1,730个需要深度时序推理（追踪变化、趋势、跨时期证据）的查询。
分步检索规划：包含3,976个分解步骤，并映射了黄金文档，用于多跳评估。
新颖时序指标：引入了时序覆盖率@k和时序精确率@k以衡量时序完整性。

数据构成

覆盖领域：13个领域（包括Cardano、Iota、Monero、Bitcoin、Economics、Law、Political、History、Quant、Travel、Workplace、Genealogy、HSM）。
数据来源：Stack Exchange。

评估与使用

评估代码：已发布完整的评估代码和时序指标。
主要脚本：
- run.py：用于标准检索评估。
- run_step.py：用于分步评估。
- temporal_metrics.py：用于计算时序指标（需配置LLM提供商API）。
数据获取：脚本会自动从Hugging Face Hub（数据集tempo26/Tempo）下载必要的查询和语料数据。

性能基准（部分结果摘要）

下表展示了不同检索模型在TEMPO各领域上的平均性能表现（数值越高越好）：

模型	平均得分
DiVeR	32.0
E5	30.4
SFR	30.0
ReasonIR	27.2
GritLM	27.2
Contriever	21.4
BGE	22.0
BM25	10.8

对比其他基准

TEMPO在查询数量、领域覆盖、时序性、推理强度、专家领域、分步评估和跨时期证据支持方面均优于或区别于BRIGHT、RAR-b和NTCIR Temporalia等基准。

引用

相关论文引用信息即将发布。

搜集汇总

数据集介绍

构建方式

在信息检索领域，真实世界的信息需求往往涉及对时间演化的推理与跨时期证据的综合，而现有基准在时间推理与复杂检索的结合上存在显著空白。TEMPO数据集的构建过程体现了严谨的科学方法：研究团队从Stack Exchange平台的13个专业领域（涵盖区块链、社会科学、应用领域及STEM）中精心筛选了1,730个自然产生的复杂查询，这些查询平均长度约300词，且均需深度时间推理，如追踪变化、识别趋势或进行跨时期比较。构建过程包括三个核心环节：首先，通过人工标注者结合Gemini辅助的网页搜索，从答案链接中筛选并提取提供关键时间信息的正面文档；其次，利用GPT-4o生成旨在发现主题相关但时间不匹配内容的搜索查询，进而通过谷歌搜索挖掘具有挑战性的负面文档，确保模型无法依赖简单的语义匹配；最后，采用GPT-4o结合人工验证的方式，对查询和文档进行多层次的时间标注，包括时间意图、信号、事件、时间范围（ISO格式）及细粒度的时间推理分类，并通过Qwen-72B作为独立大语言模型评委进行质量验证，确保数据集的整体质量评分达到86.7。

特点

TEMPO数据集在时间推理密集型检索基准中具有多项开创性特点。其一，它首次将深度时间推理与复杂检索任务相结合，其1,730个查询覆盖了事件分析与定位、时间周期情境化、起源与演化比较、趋势与跨时期比较等10个细粒度时间推理类别，要求系统进行跨时期证据合成而非简单的时间戳查找。其二，数据集引入了创新的分步检索规划机制，将1,605个查询分解为3,976个检索步骤，并为每个步骤映射了黄金文档，从而支持对多跳时间推理能力的评估。其三，TEMPO提出了专门的时间评估指标，如时间覆盖率@k（Temporal Coverage@k）和时间精度@k（Temporal Precision@k），这些指标采用大语言模型作为评委，能够衡量检索结果是否覆盖了查询所需的基线期和比较期，弥补了传统信息检索指标在时间维度上的不足。其四，数据集的时间分布跨度从1900年前至2020年以后，强调跨时期推理，同时保持了现代查询的强代表性，为评估长期演化模式和当代动态提供了全面基础。

使用方法

TEMPO数据集为评估和改进检索系统及检索增强生成系统的时间推理能力提供了标准化的测试平台。研究者和开发者可通过两种主要任务范式使用该数据集：一是传统的‘查询→文档’检索任务，直接评估系统对1,730个复杂时间查询的检索效果；二是‘查询→步骤→文档’的多步时间推理任务，要求系统遵循分解后的检索计划，依次检索针对特定时间周期或查询方面的证据。在使用过程中，应优先采用数据集提供的新型时间指标（如TC@k, TP@k）进行评估，这些指标能更准确地反映系统在时间对齐和跨时期覆盖方面的性能。此外，数据集的步骤式检索计划可用于训练或评估具备多跳推理能力的检索模型。对于检索增强生成系统的评估，可将TEMPO的检索结果输入生成模型，并利用其黄金答案评估生成答案的正确性，从而分析时间上不完整的检索证据如何影响下游任务性能。数据集的代码与数据已公开，确保了研究的可复现性。

背景与挑战

背景概述

TEMPO数据集由因斯布鲁克大学和不列颠哥伦比亚大学的研究团队于2026年创建，旨在填补现有基准在时序推理与复杂检索结合方面的空白。该数据集聚焦于跨领域时序推理密集型检索，核心研究问题在于如何评估检索系统对同时具备深度时序推理需求与跨时段证据合成能力的复杂查询的处理效能。TEMPO包含来自13个专业领域的1,730个自然查询，覆盖区块链、社会科学、应用领域及STEM学科，通过引入逐步检索规划与新颖时序评估指标，显著推动了时序信息检索与检索增强生成系统的发展。

当前挑战

TEMPO数据集主要应对时序推理密集型检索的挑战：在领域问题层面，它旨在解决复杂时序查询的检索难题，例如追踪变化趋势、比较跨时段证据及分析时序演化，这些任务要求系统超越简单的时间戳匹配，实现深度的时序语义理解与证据合成。在构建过程中，挑战包括从Stack Exchange平台筛选高质量时序推理查询、确保正负文档的时序对齐与覆盖完整性，以及设计可靠的时序评估指标（如时序覆盖度@k）以准确衡量跨时段检索效能。

常用场景

经典使用场景

在信息检索与问答系统领域，TEMPO数据集被广泛用于评估和提升检索系统在复杂时间推理任务上的性能。该数据集通过涵盖区块链、社会科学、应用领域及STEM等13个专业领域的1,730个复杂查询，为研究者提供了一个测试平台，以检验系统在跟踪变化、识别趋势和跨时期证据比较等深度时间推理场景中的表现。其多步骤检索规划和专门设计的时间覆盖度指标，使得TEMPO成为衡量检索模型是否能够有效整合不同时间区间信息的关键工具。

衍生相关工作

TEMPO数据集的推出激发了多个相关研究方向。基于其多步骤检索规划特性，研究者开发了如ReasonIR和DiVeR等推理增强检索模型，这些模型专门优化了时间推理能力。同时，该数据集的时间评估指标被后续工作采纳，用于改进检索增强生成系统中的时间对齐问题。此外，TEMPO的跨领域设计促进了时间推理在区块链分析、历史文献检索等专业领域的应用研究，为构建更鲁棒的时间感知信息系统奠定了基础。

数据集最近研究