five

TRAVELER

收藏
arXiv2025-05-02 更新2025-05-06 收录
下载链接:
https://gitlab.ub.uni-bielefeld.de/s. kenneweg/TRAVELER
下载链接
链接失效反馈
官方服务:
资源简介:
TRAVELER是一个用于评估大型语言模型(LLM)在处理事件时间推理能力上的新合成基准数据集。它包含3300个英语问题,涵盖日常家庭事件,旨在评估模型在处理不同时间明确度和事件集大小的能力。数据集分为三个类别:明确的时间问题、相对于说话时间的时间隐含问题和模糊的时间问题。为了生成基准数据集,研究人员通过随机抽样生成合成事件集,并针对每个事件集自动生成问题。数据集的目的是帮助研究人员更好地理解LLM在处理复杂时间推理任务时的性能,并推动相关技术的发展。

TRAVELER is a novel synthetic benchmark dataset developed to evaluate the event temporal reasoning capabilities of Large Language Models (LLMs). It contains 3,300 English questions covering everyday household events, designed to assess models' performance when handling tasks with varying levels of temporal explicitness and event set sizes. The dataset is categorized into three groups: explicit temporal questions, temporally implicit questions relative to the moment of speech, and vague temporal questions. To generate this benchmark, researchers first create synthetic event sets through random sampling, then automatically generate corresponding questions for each event set. The goal of this dataset is to help researchers better understand the performance of LLMs when tackling complex temporal reasoning tasks, and to advance the development of related technologies.
提供机构:
比勒费尔德大学(德国比勒费尔德市), 本田欧洲研究院(德国奥芬巴赫市)
创建时间:
2025-05-02
搜集汇总
数据集介绍
main_image_url
构建方式
TRAVELER数据集的构建采用了系统性生成合成事件的方法,通过从预定义的动作、主体、对象、位置和时间戳中随机采样,模拟家庭环境中常见的场景。每个事件被实例化为一个包含事件类型、主体、位置和时间戳的元组。通过迭代这一过程,生成了不同长度(5至100个事件)的事件集。此外,数据集还通过人类调查对模糊时间表达进行了概率性评估,确保了数据的多样性和真实性。
特点
TRAVELER数据集的特点在于其专注于评估模型对时间推理的能力,特别是对显式、隐式和模糊时间表达的处理。数据集包含3,300个问题,覆盖了不同长度的事件集和多种时间表达类型。其独特之处在于对模糊时间表达的概率性评估,这为研究模型在模糊时间推理中的表现提供了新的视角。
使用方法
TRAVELER数据集的使用方法主要包括通过问答任务评估模型的时间推理能力。数据集提供了不同长度的事件集和多种时间表达类型的问题,用户可以根据需要选择特定的事件集长度或时间表达类型进行测试。此外,数据集还支持多种提示策略,如零样本提示和思维链提示,以帮助用户更全面地评估模型的性能。数据集的使用旨在推动时间推理领域的研究,特别是在处理模糊时间表达方面的进展。
背景与挑战
背景概述
TRAVELER是由德国比勒菲尔德大学和本田欧洲研究院的研究团队于2025年提出的一个新型合成基准数据集,专注于评估模型在模糊、隐式和显式时间参考下的时序推理能力。该数据集以问答范式构建,包含3,300个涉及日常家庭事件的时序问题,旨在系统评估大语言模型在解析不同类型时间参考时的性能差异。作为首个涵盖模糊时间表达式的基准,TRAVELER通过人类调查建立真实答案,填补了现有时序推理评估资源在事件集长度和模糊性维度上的空白,为自然语言理解领域的时序推理研究提供了重要工具。
当前挑战
TRAVELER面临的挑战主要体现在两个层面:在领域问题层面,该数据集需解决时序推理中模糊时间表达(如'recently'、'just')的量化评估难题,这类表达缺乏明确边界导致传统二元评估失效;在构建层面,研究者需克服合成事件集的时序一致性维护、人类标注者对于模糊时间概念的主观差异处理,以及长事件链(最多100个事件)中信息保持与检索的复杂性。特别是将人类对模糊时间表达的认知概率转化为可计算评估指标的过程,需要设计创新的概率加权准确率计算方法。
常用场景
经典使用场景
TRAVELER数据集在自然语言处理领域中被广泛用于评估大型语言模型(LLMs)在时间推理能力上的表现。特别是在处理模糊、隐式和显式时间参考的问题时,该数据集通过问答范式提供了丰富的测试场景。研究者可以利用这一数据集来测试模型在不同时间表达形式下的理解能力,从而揭示模型在处理时间信息时的优势和不足。
衍生相关工作
TRAVELER数据集的推出激发了大量相关研究,特别是在时间推理和问答系统领域。许多后续工作基于该数据集进一步探索了大型语言模型在时间推理任务中的表现,并提出了多种改进方法,如引入显式记忆组件、结合形式化时间推理模块等。此外,该数据集也为时间模糊性处理的研究提供了新的基准和方向。
数据集最近研究
最新研究方向
TRAVELER数据集作为评估大语言模型(LLMs)在模糊、隐式和显式时间参考下进行事件时序推理能力的新兴基准,近期研究聚焦于三个核心方向:首先,探索LLMs在处理不同时间表达明确性(显式、隐式、模糊)时的性能差异,揭示模型对模糊时间副词(如'just'、'recently')的理解存在显著短板;其次,分析事件集规模(5至100个事件)对推理准确率的影响,发现模型在长事件链场景下性能下降高达39%;最后,优化提示工程策略(如思维链推理),其中自然语言表达结合日期精简格式(Date-Only)的CoT Review方法表现最优,为时序推理任务提供了新的技术路径。该数据集通过合成3,300个家庭场景的问答对,填补了现有基准在模糊时间表达评估和多事件推理测试上的空白,推动了时序推理向更贴近人类认知模糊性的方向发展。
相关研究论文
  • 1
    TRAVELER: A Benchmark for Evaluating Temporal Reasoning across Vague, Implicit and Explicit References比勒费尔德大学(德国比勒费尔德市), 本田欧洲研究院(德国奥芬巴赫市) · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作