Time-Bench Dataset

github2025-05-23 更新2025-05-24 收录

下载链接：

https://github.com/ulab-uiuc/Time-R1

下载链接

链接失效反馈

官方服务：

资源简介：

包含超过200,000个带有明确时间标注的示例。涵盖多样化的任务：时间戳推断、时间间隔估计、事件排序和掩码时间实体完成。

This dataset contains over 200,000 examples with explicit temporal annotations, encompassing a diverse range of tasks such as timestamp inference, time interval estimation, event ordering, and masked temporal entity completion.

创建时间：

2025-05-16

原始信息汇总

Time-R1 数据集概述

数据集简介

Time-R1是一个旨在赋予语言模型全面时间推理能力的框架，使其能够从过去事件中逐步培养复杂的时间逻辑，预测未来事件并创造性生成合理的未来场景。

数据集资源

Time-Bench数据集
- 包含超过200,000个带有明确时间标注的示例
- 涵盖多样化任务：时间戳推断、时间间隔估计、事件排序和掩码时间实体补全
- 数据集文件需放置在Time-R1/datasets/子目录中
Time-R1模型检查点
- 包含Stage 1后的θ₁和Stage 2后的θ₂检查点

核心特点

全面时间推理能力
- 统一的理解、预测和创造性生成能力
三阶段强化学习课程
- 阶段1：从历史数据建立基础时间理解和逻辑事件-时间映射
- 阶段2：预测未来事件时间，特别是模型知识截止日期之后的事件
- 阶段3：创造性生成合理未来场景
动态奖励系统
- 包含1200+行代码的时间推理奖励计算模块
先进性能
- 3B参数的Time-R1模型显著优于大200倍以上的模型

训练流程

阶段1：时间理解（θ₁）
- 分三个阶段训练：简单推理→所有理解任务→动态奖励微调
阶段2：未来事件预测（θ₂）
- 基于θ₁检查点进行训练
阶段3验证
- 使用θ₂检查点进行未来新闻生成和分析

性能表现

阶段1结果
- θ₁模型平均性能超过大200倍以上的模型
阶段2和3结果
- θ₂模型在未来事件预测和创造性生成任务上超越专业推理模型

技术实现

核心逻辑
- RL工作流：verl/trainer/main_ppo*.py
- 奖励设计：verl/utils/reward_score/
- 超参数配置：verl/trainer/config/ppo_trainer.yaml

使用说明

环境配置
- 推荐Python 3.9
- 依赖安装包括PyTorch 2.4.0、vLLM 0.6.3和Ray
训练脚本
- 各阶段对应脚本：scripts/stage1_phase*.sh、scripts/stage2.sh
验证脚本
- 未来新闻生成：future_news_generation/stage3.sh

搜集汇总

数据集介绍

构建方式

Time-Bench数据集构建基于十年新闻数据，通过精心设计的动态规则奖励系统驱动三阶段强化学习课程。第一阶段聚焦历史数据的时序理解与逻辑事件-时间映射；第二阶段利用合成数据训练模型预测未来事件时间，避免信息泄露；第三阶段则无需微调即可生成未来情景，展现了强大的泛化能力。数据集包含超过20万条带有显式时间标注的样本，涵盖时间戳推断、时间间隔估计、事件排序及掩码时间实体补全等多样化任务。

特点

Time-Bench数据集以其全面性著称，不仅覆盖了从基础理解到高级预测的时序推理任务，还通过多阶段训练模型展现出卓越的创造性生成能力。其独特之处在于动态奖励系统的设计，能够根据学习阶段和任务难度调整评分策略，确保模型在时间推理上的精准性。此外，数据集衍生自真实新闻数据，保证了数据的多样性和现实相关性，为时序推理研究提供了丰富的资源。

使用方法

使用Time-Bench数据集时，需将数据集文件（如.parquet格式）置于指定目录（如Time-R1/datasets/）。通过提供的训练脚本，用户可以按照三阶段课程逐步训练模型，从基础时序理解到未来事件预测，最终实现创造性情景生成。数据集支持多种时序推理任务，用户可根据需求选择相应任务进行模型训练和评估。实验证明，即使是3B参数的Time-R1模型，也能在复杂时序任务上超越规模大200倍的模型。

背景与挑战

背景概述

Time-Bench数据集由Zijia Liu等研究人员于2024年提出，作为Time-R1框架的核心组成部分，旨在提升大型语言模型在时序推理方面的能力。该数据集基于十年新闻数据构建，包含超过20万条带有显式时间标注的样本，覆盖时间戳推断、时间间隔估计、事件排序和掩码时间实体补全等多样化任务。作为时序理解领域的重要基准，Time-Bench通过其多阶段强化学习课程设计，推动了模型从基础时序理解到未来事件预测及场景生成的渐进式能力培养，其3B参数规模的模型性能甚至超越百倍体量的主流模型，为时序智能研究设立了新的技术标准。

当前挑战

在领域问题层面，Time-Bench致力于解决语言模型在复杂时序逻辑建模中的三大核心挑战：历史事件的时间关系解析、未来事件时间的精确预测、以及无监督条件下合理未来场景的创造性生成。数据集构建过程中，研究团队面临标注一致性与时间表达式多样化的平衡难题，需设计动态规则奖励系统来处理新闻数据中跨域时间表述的歧义性。为避免模型在预测任务中利用知识截断日期后的信息，采用合成数据进行严格训练验证，这种数据隔离机制极大增加了数据工程复杂度。

常用场景

经典使用场景

在自然语言处理领域，Time-Bench Dataset为大型语言模型提供了丰富的时序推理训练资源。该数据集通过包含时间戳推断、时间间隔估计、事件排序等多样化任务，使模型能够系统性地掌握从历史事件中提取时间逻辑的能力。研究人员可借助该数据集构建多阶段训练流程，逐步培养模型从基础时间理解到未来事件预测的完整时序推理能力。

解决学术问题

该数据集有效解决了语言模型在时序推理方面的关键瓶颈问题。传统语言模型往往缺乏对时间维度的系统认知，难以处理事件间复杂的时间关系。Time-Bench通过精心设计的动态奖励系统和三阶段强化学习课程，使模型能够准确建立事件与时间的映射关系，预测超出知识截止日期的未来事件，并生成符合时间逻辑的未来场景，显著提升了模型的时间智能水平。

衍生相关工作

该数据集已衍生出多个具有影响力的研究工作。Time-R1框架通过三阶段训练流程，验证了时序推理能力的可扩展性。后续研究在此基础上开发了时间感知的问答系统、事件时间线重建工具等创新应用。部分工作还探索了将时序推理与其他认知能力结合的混合模型架构，进一步拓展了时间智能在复杂任务中的应用边界。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集