TIME

github2025-06-04 更新2025-06-05 收录

下载链接：

https://github.com/sylvain-wei/TIME

下载链接

链接失效反馈

官方服务：

资源简介：

TIME是一个多级基准数据集，旨在用于现实场景中的时间推理。它包含38,522个问答对，覆盖3个级别和11个细粒度子任务，包含3个子数据集：TIME-Wiki、TIME-News和TIME-Dial。

TIME is a multi-level benchmark dataset designed for temporal reasoning in real-world scenarios. It consists of 38,522 question-answer pairs, covering 3 levels and 11 fine-grained subtasks, and includes three sub-datasets: TIME-Wiki, TIME-News, and TIME-Dial.

创建时间：

2025-05-13

原始信息汇总

TIME数据集概述

基本信息

名称：TIME (A Multi-level Benchmark for Temporal Reasoning of LLMs in Real-World Scenario)
作者：Shaohang Wei, Wei Li, Feifan Song, Wen Luo, Tianyi Zhuang, Haochen Tan, Zhijiang Guo, Houfeng Wang
机构：北京大学、华为诺亚方舟实验室
论文：https://arxiv.org/abs/2505.12891
数据集地址：https://huggingface.co/datasets/SylvainWei/TIME

数据集简介

TIME是一个面向大语言模型(LLMs)在现实场景中进行时序推理的多层次基准测试，包含38,522个问答对，涵盖3个层次和11个细粒度子任务。

子数据集

TIME-Wiki：基于维基百科数据
TIME-News：基于新闻数据
TIME-Dial：基于对话数据

数据统计

数据集	总问答对数	各子任务数量
TIME	38,522	详见下表
TIME-Wiki	13,848
TIME-News	19,958
TIME-Dial	4,716
TIME-Lite	943
TIME-Lite-Wiki	322
TIME-Lite-News	299
TIME-Lite-Dial	322

任务类型

Extract (Ext.)
Localization (Loc.)
Computation (Comp.)
Duration Compare (D.C.)
Order Compare (O.C.)
Explicit Reasoning (E.R.)
Order Reasoning (O.R.)
Relative Reasoning (R.R.)
Co-temporality (C.T.)
Timeline (T.L.)
Counterfactual (C.F.)

引用格式

bibtex @article{wei2025time, title={TIME: A Multi-level Benchmark for Temporal Reasoning of LLMs in Real-World Scenarios}, author={Wei, Shaohang and Li, Wei and Song, Feifan and Luo, Wen and Zhuang, Tianyi and Tan, Haochen and Guo, Zhijiang and Wang, Houfeng}, journal={arXiv preprint arXiv:2505.12891}, year={2025} }

搜集汇总

数据集介绍

构建方式

在时序推理研究领域，构建具有现实复杂性的基准数据集面临诸多挑战。TIME数据集通过多源数据融合策略，系统整合了维基百科条目（TIME-Wiki）、新闻事件（TIME-News）和社交对话（TIME-Dial）三大数据源，采用分层标注框架构建38,522个问答对。研究团队设计了包含11类细粒度任务的评估体系，通过自动化生成与人工校验相结合的方式，确保数据覆盖时间提取、事件排序、反事实推理等多元时序推理维度。每个数据子集均采用统一的标准化处理流程，包括时间表达式标注、事件关系建模和问答对生成三个关键环节。

特点

作为面向现实场景的多层次时序推理基准，TIME数据集展现出三大核心特征：其知识密度体现在融合维基百科的深度时间知识、新闻事件的动态时序演变以及社交对话的隐含时间逻辑；任务复杂度通过11类子任务呈现阶梯式分布，涵盖从基础时间定位到复杂反事实推理的全谱系能力评估；场景多样性表现为同时包含结构化知识、连续事件流和社交语境三种典型推理场景。特别设计的TIME-Lite子集包含943个人工精标样本，为模型能力诊断提供高信度评估标准。

使用方法

该数据集采用模块化评估方案，研究者可通过标准化流程快速展开实验。使用前需配置git-lfs工具完成数据下载，安装指定依赖环境后，eval_time.sh和eval_timelite.sh脚本分别支持完整数据集和精标子集的自动化评估。数据以结构化JSON格式组织，包含原始文本、时间标注、问题类型和参考答案等字段。针对不同研究需求，支持按子数据集（Wiki/News/Dial）或任务类型进行灵活的数据切片，配套提供的评估指标脚本可生成细粒度的雷达图分析报告。为保障实验可复现性，建议严格遵循论文中描述的temperature参数设置和few-shot提示模板。

背景与挑战

背景概述

TIME数据集由北京大学与华为诺亚方舟实验室联合研发，于2025年正式发布，旨在解决大语言模型在现实场景中的时序推理能力不足问题。作为多层级基准测试，该数据集包含38,522个问答对，涵盖维基百科、新闻和对话三大子集，设计了11类细粒度任务以应对密集时序信息、快速变化事件动态和复杂社交依赖三大核心挑战。其创新性体现在首次系统性地构建了面向真实世界的时序推理评估体系，通过TIME-Wiki、TIME-News和TIME-Dial三个维度模拟不同场景的时序特性，为自然语言处理领域的时序认知研究提供了标准化评估工具。

当前挑战

在领域问题层面，TIME数据集着力解决时序推理中的三大核心难题：如何从高密度时序信息中提取关键要素，如何建模突发事件引发的时序关系突变，以及如何解析社交场景中隐含的复杂时序依赖。数据集构建过程中面临标注质量控制的挑战，特别是对新闻事件的时效性标注需要动态更新机制，而对话数据中的隐式时序关系标注则依赖复杂的语境推理。此外，为保持评估的公平性，需平衡不同子集间的任务难度分布，这对标注框架设计和质量验证提出了极高要求。

常用场景

经典使用场景

在自然语言处理领域，时间推理是理解现实世界事件动态的关键能力。TIME数据集通过其多层次的架构，为大型语言模型提供了丰富的测试场景。该数据集特别适用于评估模型在密集时间信息、快速变化的事件动态以及复杂社交互动中的时间依赖关系等方面的表现。研究者可以利用TIME的38,522个问答对，针对11项细粒度子任务进行系统性评估，从而全面检验模型的时间推理能力。

实际应用

在实际应用层面，TIME数据集对提升智能助手、新闻摘要系统和对话系统的时间敏感性具有显著价值。基于该数据集训练的模型能够更准确地理解事件时序关系，在医疗记录分析、金融趋势预测等专业领域展现出独特优势。特别是TIME-Dial子集模拟的社交对话场景，为开发具备时间感知能力的聊天机器人提供了重要训练素材。

衍生相关工作

围绕TIME数据集已产生一系列创新性研究，包括时序知识增强的预训练方法、多粒度时间推理架构设计等。部分工作专注于提升模型在TIME-Wiki子集上的表现，开发了新型的时序信息抽取技术。另一些研究则利用TIME-News子集探索事件演化建模，提出了创新的动态时序表示方法。这些衍生研究共同推动了时间推理领域的技术进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集