DATETIME

Name: DATETIME
Creator: 瑞士苏黎世联邦理工学院（ETH Zurich）
Published: 2025-04-23 01:52:04
License: 暂无描述

arXiv2025-04-23 更新2025-04-26 收录

下载链接：

https://dataverse.harvard.edu/dataverse/DATETIME, https://github.com/EdGaere/DATETIME

下载链接

链接失效反馈

官方服务：

资源简介：

DATETIME数据集是一个高质量的数据集，旨在评估大型语言模型（LLM）在日期时间处理方面的翻译和推理能力。数据集包含日期和时间的组合，例如'11th.february.2023, 1:12:31'。虽然日期时间对于人类来说是直观和易于理解的，但对于LLM来说却具有挑战性。DATETIME数据集提供了翻译、计算和混合任务，以评估LLM在日期时间处理方面的能力。数据集涵盖了从1990年1月1日到9999年12月31日的日期时间范围，并具有多种自然表示形式和时区。数据集是合成生成的，以确保准确性和无噪声，并且可以频繁地重新生成以减少污染。DATETIME数据集的应用领域包括评估LLM在日期时间处理方面的能力，并促进相关研究的发展。

The DATETIME dataset is a high-quality corpus designed to evaluate the translation and reasoning capabilities of large language models (LLMs) in datetime processing. This dataset contains combinations of dates and times, such as '11th February 2023, 1:12:31'. While datetime is intuitive and easy for humans to comprehend, it poses considerable challenges for LLMs. The DATETIME dataset provides translation, calculation, and hybrid tasks to assess the datetime processing capabilities of LLMs. It covers a datetime range from January 1, 1990 to December 31, 9999, and includes various natural expression formats and time zones. This dataset is synthetically generated to ensure accuracy and noise-free quality, and can be frequently regenerated to mitigate data contamination. The application scenarios of the DATETIME dataset include evaluating the datetime processing capabilities of LLMs and promoting the development of relevant research.

提供机构：

瑞士苏黎世联邦理工学院（ETH Zurich）

创建时间：

2025-04-23

搜集汇总

数据集介绍

构建方式

DATETIME数据集通过Python 3.8和Babel 2.9.1库合成生成，覆盖了从1990年1月1日至9999年12月31日的时间范围。数据生成过程确保了无歧义的自然语言表示与标准ISO-8601格式的精确对应，并通过严格的NFKD Unicode归一化处理保证字符一致性。为避免数据污染风险，数据集支持按需重新生成，所有代码和生成参数均在GitHub开源。

特点

该数据集包含三大任务类型（翻译、计算及混合任务），共19个子任务，全面评估模型在日期时间解析、格式转换和算术运算等核心能力。其显著特点包括：1) 跨世纪时间跨度与多语言地区格式支持；2) 通过合成数据实现零噪声标注；3) 任务设计强调组合推理能力，如混合任务需联合执行格式转换与日期运算。前沿模型与开源模型表现差异显著，揭示了当前LLM在时序推理领域的瓶颈。

使用方法

使用DATETIME需通过零样本直接回答提示（zero-shot answer-only prompting），系统提示明确要求模型避免解释性前缀。评估采用字符串精确匹配（翻译任务）或整数匹配（组件提取任务），对冗余输出严格判错。基准测试包含1000个样本/任务，建议在无微调条件下测试模型原生能力。对于计算类任务，可扩展至链式思维（CoT）或程序生成（PoT）等进阶方法以提升表现。数据集支持Croissant元数据标准，可通过Harvard Dataverse获取完整测试集与生成工具。

背景与挑战

背景概述

DATETIME是由苏黎世联邦理工学院（ETH Zurich）的Edward Gaere和Florian Wangenheim于2025年提出的新型基准测试，旨在系统评估大型语言模型（LLM）在日期时间（datetime）处理中的翻译与推理能力。该数据集填补了当前公开基准测试在日期时间领域评估的空白，其核心研究问题聚焦于LLM对自然语言中多样化日期时间表达的标准化转换能力，以及跨时区、跨格式的复杂日期算术运算能力。作为首个专注于该领域的基准，DATETIME通过合成生成的高质量数据（涵盖1990年至9999年的时间范围）为LLM能力评估提供了新维度，其创新性体现于将人类直觉易处理但机器长期薄弱的时序推理任务纳入系统化测评体系。

当前挑战

DATETIME基准面临双重挑战：在领域问题层面，日期时间处理涉及数百万种表达变体（组件顺序、区域格式、时区差异等），要求模型具备泛化翻译能力而非简单记忆，且日期运算需处理非固定间隔（如闰年、月份天数差异）的复杂推理，这对当前LLM的算术与逻辑能力构成严峻考验；在构建层面，需平衡数据真实性（保留自然语言表达的多样性）与评估公平性（避免因未来日期或复杂格式导致模型性能误判），同时通过合成生成确保标签精确性并降低数据污染风险。实验显示，即使前沿模型如ChatGPT在简单任务（如添加20天）上准确率不足80%，开源模型表现更显著落后，凸显该领域研究亟待突破。

常用场景

经典使用场景

DATETIME数据集专为评估大型语言模型（LLM）在日期时间处理领域的翻译和推理能力而设计。其核心任务涵盖自然语言表示与ISO-8601标准格式间的转换、日期时间算术运算（如添加指定天数）以及混合任务（结合翻译与计算）。该数据集通过生成涵盖1990年至9999年的多样化日期时间表达，系统检验模型对跨文化、多时区及复杂格式的泛化能力。

衍生相关工作

DATETIME的发布催生了三类衍生研究：1）提示工程改进（如NLEP采用Python代码生成执行日期计算）；2）模型架构创新（如MathChat的混合符号-神经推理框架）；3）评测体系扩展（被纳入HELM等综合评估框架）。其‘非污染性’设计理念（通过定期重新生成数据避免测试泄漏）影响了后续基准如LiveBench的开发，同时为时序推理专用模型（如谷歌的TEMPURA）提供了验证基础。

数据集最近研究