five

TIME

收藏
arXiv2025-05-19 更新2025-05-21 收录
下载链接:
https://huggingface.co/datasets/SylvainWei/TIME
下载链接
链接失效反馈
官方服务:
资源简介:
TIME数据集是一个多层次的综合评估基准,旨在评估大型语言模型(LLMs)在现实场景中的时间推理能力。该数据集由北京大学和华为诺亚方舟实验室的研究人员共同构建,包含38,522个问答对,涵盖三个层次,共11个细粒度的子任务。TIME数据集由三个子数据集组成,分别是TIME-WIKI、TIME-NEWS和TIME-DIAL,分别反映了不同现实世界的挑战。此外,还构建了TIME-LITE,一个高质量的人为标注子集,包含938个精心挑选的实例,以便于未来的研究和标准化评估。

The TIME dataset is a multi-level comprehensive evaluation benchmark designed to evaluate the temporal reasoning abilities of large language models (LLMs) in real-world scenarios. It was jointly constructed by researchers from Peking University and Huawei Noah's Ark Lab. The dataset includes 38,522 question-answer pairs, covering 11 fine-grained subtasks across three hierarchical levels. The TIME dataset consists of three sub-datasets: TIME-WIKI, TIME-NEWS, and TIME-DIAL, which respectively reflect distinct real-world challenges. Additionally, a high-quality human-annotated subset named TIME-LITE has been developed, which contains 938 carefully selected instances to facilitate future research and standardized evaluation.
提供机构:
北京大学
创建时间:
2025-05-19
搜集汇总
数据集介绍
main_image_url
构建方式
TIME数据集通过多层次的构建方法,系统性地整合了来自Wikidata、新闻文章和长对话的实时数据。具体而言,TIME-WIKI基于Wikidata构建了多跳时序知识图谱,TIME-NEWS利用新闻文章的时间点生成时间线,TIME-DIAL则从多轮对话中提取事件图并标准化时间表达式。整个构建过程包括时间事实收集、时间线生成、上下文整合以及问答对合成四个关键步骤,并辅以严格的质量控制机制。
特点
TIME数据集具有三个显著特征:首先,它采用层级化设计,包含基础时间理解、时间表达式推理和复杂时间关系推理三个渐进式层次;其次,数据集覆盖知识密集型、动态事件和会话交互三种真实场景,包含38,522个问答对;最后,通过引入TIME-LITE这个人标注子集,提供了高效可靠的评估基准。特别值得注意的是,数据集设计了11种细粒度子任务,全面检验模型对显性和隐性时间信息的处理能力。
使用方法
使用TIME数据集时,建议采用分层评估策略:对于基础时间任务(Level-1),重点关注模型提取和定位时间信息的能力;中级任务(Level-2)评估时间表达式的推理性能;高级任务(Level-3)则测试复杂时间关系的理解。评估时可选用精确匹配(EM)和F1值等指标,对于TIME-NEWS子集推荐结合BM25、向量和混合检索器。为提升评估效率,可优先使用经过人工验证的TIME-LITE子集进行初步测试。
背景与挑战
背景概述
TIME数据集是由北京大学和华为诺亚方舟实验室的研究团队于2025年提出的一个多层次时序推理基准测试。该数据集旨在评估大语言模型在真实场景中的时序理解能力,包含38,522个问答对,覆盖知识密集型、动态事件和复杂社交互动三种典型场景。数据集构建基于Wikidata知识库、新闻事件和长对话数据,采用三级评估框架:基础时序理解、时序表达推理和复杂时序关系推理。作为首个系统评估大语言模型多粒度时序推理能力的基准,TIME填补了现有研究在真实世界时序复杂性建模方面的空白,为时序推理研究提供了标准化评估工具。
当前挑战
TIME数据集面临的核心挑战体现在两个方面:领域问题层面,现有模型难以处理密集时序信息(如同时发生的多事件)、快速变化的事件动态(如新闻事件更新)以及复杂社交互动中的时序依赖(如长对话中的时间指代)。构建过程层面,挑战包括:1) 从非结构化文本中准确提取和标准化显式/隐式时间表达式;2) 构建跨文档的事件时间线并保持时序一致性;3) 设计具有区分度的误导选项以评估模型的深层时序推理能力;4) 处理超长对话场景下的时间指代消解问题。这些挑战使得数据标注成本高达每实例0.103美元,且需要设计专门的词级相似度指标(0.6626)来保证标注质量。
常用场景
经典使用场景
TIME数据集作为多层级时间推理基准,在自然语言处理领域被广泛应用于评估大型语言模型(LLMs)在真实场景中的时间理解能力。其经典使用场景包括知识密集型事件分析(如维基百科条目中的时间事实关联)、动态新闻事件的时间线重构(如政治冲突事件的时序推理)以及超长多轮对话中的时间依赖性解析(如跨会话的时间指代消解)。研究者通过该数据集的三级任务框架(基础时间理解→时间表达式推理→复杂时间关系推理),系统检验模型处理密集时间信息、快速变化事件和复杂社交互动时序的能力。
实际应用
在实际应用层面,TIME数据集支撑了多个关键领域的系统开发:在智能新闻聚合中提升事件脉络梳理的准确性(如Bloomberg终端的时间敏感事件分析);在对话系统中增强长期记忆一致性(如微软小冰的跨会话时间指代处理);在知识图谱补全中优化时序关系推理(如Google Knowledge Vault的历史事实校验)。华为诺亚方舟实验室等企业已采用该基准进行时间敏感型产品的性能验证,其轻量化版本TIME-LITE(938个人工标注样本)更成为工业界模型迭代的高效测试集。
衍生相关工作
该数据集衍生出多个标志性研究:DeepSeek团队基于TIME的评估结果开发了DeepSeek-R1时序推理专用模型;后续工作TReMu(ACL 2025)借鉴其多会话评估框架,提出了神经符号混合的时间定位方法;华为团队则受TIME-NEWS启发构建了新闻事件预测系统ChronoNews。数据集作者团队进一步发布的TIMELITE-Bench成为时间推理轻量化评估的新标准,相关技术已集成至HuggingFace生态的时间推理评估工具链。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作