Reasoning and Answering Temporal Ability dataset (RATA)

Name: Reasoning and Answering Temporal Ability dataset (RATA)
Creator: 摩根大通AI研究
Published: 2025-04-10 18:48:42
License: 暂无描述

arXiv2025-04-10 更新2025-04-15 收录

下载链接：

http://arxiv.org/abs/2504.07646v1

下载链接

链接失效反馈

官方服务：

资源简介：

RATA数据集是由摩根大通AI研究所创建的，包含17种不同类型的时态推理任务，采用半结构化匿名数据，以确保模型依赖于推理能力而非先验知识。该数据集适用于评估大型语言模型在处理结构化或半结构化匿名数据时的时态推理能力。

The RATA dataset was developed by JPMorgan Chase AI Research. It encompasses 17 distinct types of temporal reasoning tasks, and adopts semi-structured anonymized data to ensure that models rely on their reasoning capabilities rather than prior knowledge. This dataset is suitable for evaluating the temporal reasoning capabilities of large language models (LLMs) when processing structured or semi-structured anonymized data.

提供机构：

摩根大通AI研究

创建时间：

2025-04-10

搜集汇总

数据集介绍

构建方式

RATA数据集的构建基于对17种常见时间推理任务的深入分析，采用半结构化匿名数据以确保模型依赖推理而非先验知识。通过合成时间知识图（TKG）生成问题，并结合自然语言模板转换，最终形成包含5,850个问题的多样化数据集。数据匿名化处理有效避免了训练数据泄露问题，专注于评估模型的时间推理能力。

使用方法

使用RATA数据集时，可采用直接提示、思维链（CoT）、思维树（ToT）等方法进行时间推理任务评估。针对复杂任务，推荐结合外部执行（如代码生成或预定义函数API）以提升准确性。实验表明，结合外部工具的CoTAPI方法在匿名数据上准确率可达93%，适用于需高可靠性的应用场景。

背景与挑战

背景概述

Reasoning and Answering Temporal Ability dataset (RATA) 是由Alfredo Garrachón Ruiz、Tomás de la Rosa和Daniel Borrajo等研究人员于2025年创建的，旨在评估大型语言模型（LLMs）在未见过的半结构化匿名数据上进行时序推理的能力。该数据集聚焦于时序问答（TQA）任务，包含17种常见的时序推理问题类型，共计5,850个问题。RATA的创建填补了现有数据集在匿名数据时序推理评估上的空白，为研究LLMs在金融、体育分析等依赖时序推理的领域中的应用提供了重要工具。

当前挑战

RATA数据集面临的挑战主要包括两个方面：领域问题的挑战和构建过程的挑战。在领域问题方面，数据集旨在解决LLMs在未见过的半结构化数据上进行时序推理的难题，包括处理复杂的时序关系（如‘之前’、‘期间’、‘之间’）和隐式时间表达。在构建过程中，挑战包括如何确保数据的匿名性以避免模型依赖先验知识，以及如何设计多样化的时序问题模板以覆盖广泛的推理场景。此外，数据集的构建还需解决半结构化数据转换为时序知识图的复杂性，以确保评估的准确性和可靠性。

常用场景

经典使用场景

RATA数据集在评估大型语言模型（LLM）在未见过的半结构化匿名数据上进行时间推理任务的能力方面具有经典应用场景。通过提供17种常见时间推理任务的多样化问题，该数据集能够全面测试模型在排序、计数、时间过滤和间隔持续时间等基础算法上的表现。这种评估不仅验证了模型在复杂时间逻辑上的推理能力，还为改进模型在现实场景中的应用提供了基准。

解决学术问题

RATA数据集解决了LLM在时间推理任务中依赖训练数据而非实际推理能力的问题。通过使用半结构化匿名数据，该数据集迫使模型依赖其推理能力而非预训练知识，从而更准确地评估其时间推理性能。此外，数据集还揭示了LLM在复杂算法（如排序和多实体识别）上的局限性，为未来研究提供了改进方向。

实际应用

RATA数据集的实际应用场景包括金融分析、体育统计和历史事件查询等领域，其中时间推理是关键需求。例如，在金融领域，模型可以利用该数据集评估市场事件的时间关系；在体育领域，可以分析运动员职业生涯中的关键时间点。这些应用展示了数据集在现实世界中的广泛适用性和实用价值。

数据集最近研究