TEMPO

github2026-01-14 更新2026-01-22 收录

下载链接：

https://github.com/tempo-bench/Tempo

下载链接

链接失效反馈

官方服务：

资源简介：

TEMPO是第一个结合了时间推理和跨13个领域的推理密集型检索的基准数据集，包含1,730个复杂查询，需要深度时间推理（如跟踪变化、趋势、跨时期证据），3,976个分解步骤用于多跳评估，并引入了新的时间度量标准如Temporal Coverage@k和Temporal Precision@k来衡量时间完整性。

TEMPO is the first benchmark dataset that combines temporal reasoning and reasoning-intensive retrieval across 13 domains. It contains 1,730 complex queries requiring deep temporal reasoning, such as tracking changes, trends and cross-period evidence, 3,976 decomposition steps for multi-hop evaluation, and introduces novel temporal metrics including Temporal Coverage@k and Temporal Precision@k to measure temporal completeness.

创建时间：

2026-01-06

原始信息汇总

TEMPO 数据集概述

数据集基本信息

数据集名称：TEMPO (A Realistic Multi-Domain Benchmark for Temporal Reasoning-Intensive Retrieval)
发布地址：https://github.com/tempo-bench/Tempo
Hugging Face 地址：https://huggingface.co/datasets/tempo26/Tempo
许可证：MIT

核心特点与定位

TEMPO 是首个将时序推理与跨领域推理密集型检索相结合的基准测试，旨在弥补现有基准的不足。现有时序问答基准侧重于简单的事实查询，而推理密集型检索基准则缺乏时序基础。

数据集构成

查询数量：1,730 个复杂查询，需要进行深度时序推理（如追踪变化、趋势、跨时期证据）。
领域覆盖：涵盖 13 个不同领域。
检索步骤分解：包含 3,976 个分解步骤，并映射了黄金文档，用于多跳评估。

评估指标

引入新颖的时序指标：
- 时序覆盖率@k (Temporal Coverage@k)
- 时序精确率@k (Temporal Precision@k) 用于衡量检索结果的时序完整性。

评估与使用

评估代码：完整的评估代码和时序指标已发布。
主要评估脚本：
- run.py：用于标准检索评估。
- run_step.py：用于中间检索步骤的深度分析。
- temporal_metrics.py：用于计算高级时序指标（需配置 LLM API）。
数据获取：评估脚本会自动从 Hugging Face Hub（数据集 tempo26/Tempo）下载必要的查询和语料库数据。

基准对比

下表展示了 TEMPO 与其他相关基准的关键特性对比：

基准	查询数量	领域数量	数据源	时序性	推理性	专家领域	步骤分解	跨时期
BRIGHT	1,384	12	混合	❌	✅	✅	❌	❌
RAR-b	45,745	17	混合	❌	✅	✅	❌	❌
NTCIR Temporalia	100	开放	新闻/博客	✅	❌	❌	❌	❌
TEMPO (本数据集)	1,730	13	Stack Exchange	✅	✅	✅	✅	✅

搜集汇总

数据集介绍

构建方式

在信息检索领域，对时间推理能力的评估长期面临基准缺失的挑战。TEMPO数据集通过精心设计的构建流程，填补了这一空白。该数据集从Stack Exchange平台中选取了13个不同领域的真实数据，涵盖了从加密货币到法律、历史等专业范畴。构建过程中，研究者们首先筛选出需要深度时间推理的复杂查询，随后将这些查询分解为多个步骤，并为每一步骤标注了对应的黄金文档，最终形成了包含1,730个查询和3,976个分解步骤的结构化基准。这种基于真实场景、多步骤的构建方式，确保了数据集能够有效评估模型在时间维度上的复杂推理与检索能力。

特点

TEMPO数据集的核心特征在于其首次将时间推理与推理密集型检索任务相结合。该数据集包含了1,730个需要追踪变化、分析趋势和整合跨时期证据的复杂查询，对模型的深层时间理解能力提出了严峻考验。其创新性地引入了分步检索规划机制，将每个复杂查询分解为多个子步骤，并提供了对应的黄金文档映射，从而支持对多跳推理过程的细致评估。尤为突出的是，数据集配套提出了“时间覆盖率@k”和“时间精度@k”等新颖的评估指标，能够量化检索结果在时间维度上的完整性与准确性，为衡量模型的时间感知能力提供了科学的度量标准。

使用方法

为便于研究者使用，TEMPO数据集提供了完整的评估框架。用户可通过克隆代码库并安装依赖来快速搭建环境。评估过程支持对全部13个领域或指定单一领域进行标准检索测试，同时提供了专门的脚本用于执行更深层次的分步评估。数据集的最新亮点在于其时间度量计算功能，该功能通过调用大型语言模型来自动判断检索文档的时间相关性。用户需配置相应的API密钥，脚本便会自动从Hugging Face平台加载数据，并计算时间覆盖率和时间精度等指标。这种一体化的设计使得对检索系统时间推理能力的评估变得系统且高效。

背景与挑战

背景概述

在信息检索与自然语言处理领域，时序推理密集型检索是一项关键而复杂的任务，它要求模型不仅能理解查询的语义，还需精准把握时间维度上的演变与关联。TEMPO数据集应运而生，由研究团队于近期构建并发布，旨在填补现有基准的空白。该数据集作为首个将深度时序推理与跨领域复杂检索相结合的基准，涵盖了从金融、法律到历史、旅行等十三个专业领域，共包含一千七百三十个需要多步时序推理的查询。其核心研究问题聚焦于如何评估检索系统在应对时序动态性、追踪事件趋势以及整合跨时期证据方面的能力，对推动时序感知检索模型的发展具有重要影响力。

当前挑战

TEMPO数据集所针对的时序推理密集型检索任务，本身蕴含着多重挑战：查询往往涉及对实体状态随时间变化的追踪、对历史趋势的推断，以及从分散的时序证据中进行逻辑整合，这要求模型具备超越表面语义的深层时序理解能力。在数据集构建过程中，研究人员面临了显著的困难：如何从真实世界的复杂数据源（如Stack Exchange）中筛选和标注出既具时序特性又需多步推理的查询，并为其精确分解出三千九百七十六个检索步骤；同时，为确保评估的严谨性，还需设计新颖的时序指标（如时序覆盖率和时序精确率）来量化检索结果在时间维度上的完备性与准确性，这些都对数据标注的粒度与一致性提出了极高要求。

常用场景

经典使用场景

在信息检索与自然语言处理领域，TEMPO数据集为评估模型在复杂时序推理任务中的性能提供了基准。该数据集包含跨越13个领域的1,730个复杂查询，每个查询均涉及深度时序推理，例如追踪事件演变、分析趋势变化或整合跨时期证据。研究人员通常利用TEMPO来测试检索系统在需要多步骤规划和时序理解的场景下的表现，通过其分解的3,976个步骤及对应的黄金文档映射，实现对多跳检索过程的细致评估。

实际应用

在实际应用中，TEMPO数据集能够支持开发更智能的时序信息检索系统，适用于金融分析、法律案例研究、历史事件追踪及旅行规划等多个领域。例如，在金融领域，系统可利用TEMPO评估模型对市场趋势变化的检索能力；在法律领域，则有助于检索随时间演变的法规条文。这些应用场景要求系统不仅理解查询的语义，还需准确把握时间上下文，TEMPO为此类现实需求提供了可靠的测试基础。

衍生相关工作

围绕TEMPO数据集，已衍生出一系列专注于时序推理检索的经典研究工作。例如，基于其评估框架，研究者开发了如DiVeR、E5、ReasonIR等先进检索模型，这些模型在TEMPO的多个领域上展现了卓越性能。同时，TEMPO引入的时序评估指标也激励了后续研究对时序敏感度度量的进一步探索，促进了如时序覆盖率和精度等概念在更广泛检索任务中的采纳与优化。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集