Chinese Time Reasoning (CTM)

Name: Chinese Time Reasoning (CTM)
Creator: 东南大学
Published: 2025-02-24 15:27:54
License: 暂无描述

arXiv2025-02-24 更新2025-02-26 收录

下载链接：

https://github.com/Linking-ai/ctm_bench

下载链接

链接失效反馈

官方服务：

资源简介：

本研究构建了一个名为Chinese Time Reasoning (CTM)的基准数据集，该数据集由东南大学和阿里巴巴集团共同开发，旨在评估大型语言模型在时间推理方面的能力。CTM数据集包含了超过4,700个实体，涵盖了人物、地点、典故、食材和无形文化遗产等类别，时间跨度从先秦到清朝。数据集通过结构化的知识库和丰富的历史背景，为时间推理任务提供了丰富的上下文信息。

This study constructs a benchmark dataset named Chinese Time Reasoning (CTM), co-developed by Southeast University and Alibaba Group, aiming to evaluate the temporal reasoning capabilities of large language models. The CTM dataset includes over 4,700 entities covering categories such as people, locations, allusions, food ingredients, and intangible cultural heritage, with a temporal span ranging from the Pre-Qin Period to the Qing Dynasty. It provides abundant contextual information for temporal reasoning tasks via structured knowledge bases and rich historical backgrounds.

提供机构：

东南大学

创建时间：

2025-02-24

搜集汇总

数据集介绍

构建方式

Chinese Time Reasoning (CTM) 数据集构建方式是通过收集来自多个权威来源的数据，包括 Gushiwen、CBDB、CHGIS、Wikipedia 和 Ihchina 等，构建了一个全面的实体信息库。该实体库包含超过 4,700 个实体，涵盖人物、地点、典故、食材和非物质文化遗产。数据集的构建分为三个关键步骤：种子提示创建、实体感知数据生成和验证与质量控制。这些步骤确保了数据的系统性和高质量生成。

特点

CTM 数据集的特点包括：1）强调跨实体关系，包括人物、地点、典故、食材和非物质文化遗产之间的关系；2）注重时间对齐，要求模型能够正确理解和推断实体之间的时间顺序；3）具有文化背景和语境，要求模型能够理解中国文化特有的历史知识和背景。此外，CTM 还包含多种任务类型，如实体所属朝代推断、合理性判断、时间顺序理解、关系推理等，全面评估模型的时间推理能力。

使用方法

使用 CTM 数据集的方法包括：1）问答任务：根据给定的实体和上下文信息，回答与时间推理相关的问题；2）时间线对齐游戏：通过描述卡片、推理排序和确定顺序等步骤，评估模型在时间线上的推理和排序能力。此外，CTM 还支持开放书环境，即允许模型利用搜索引擎获取相关信息，进一步提高推理的准确性。

背景与挑战

背景概述

时间推理是人类认知的基础，对于各种现实世界应用至关重要。尽管近年来大型语言模型（LLM）在时间推理方面展现出令人瞩目的能力，但现有的基准测试主要依赖于基于规则的构建方法，缺乏语境深度，且涉及的时间实体范围有限。为了解决这些局限性，我们引入了中文时间推理（CTM）基准，旨在评估LLM在广泛的中文朝代编年史范围内的时间推理能力。CTM强调跨实体关系、成对时间对齐和文化背景下的推理，提供全面评估。广泛的实验结果表明CTM提出的挑战，并突出了潜在的改进途径。

当前挑战

中文时间推理（CTM）基准旨在评估LLM在广泛的中文朝代编年史范围内的时间推理能力。所解决的领域问题包括：1) 成对时间对齐的挑战；2) 语境化和文化背景下的推理挑战。构建过程中所遇到的挑战包括：1) 如何构建一个包含大量实体信息的权威中文文化实体库；2) 如何设计有效的任务和评估方法来评估LLM的时间推理能力。

常用场景

经典使用场景

在深入理解中国历史文化的背景下，CTM数据集被设计为评估大型语言模型（LLMs）在处理时间推理方面的能力。该数据集特别关注跨实体关系、时间对齐和文化背景下的推理。CTM通过问答任务和Timeline Ito游戏，为LLMs提供了一个全面评价其时间推理能力的平台。问答任务包括实体定位、事件合理性判断、时间顺序理解等，而Timeline Ito游戏则通过主题隐喻的方式，让代理推理历史实体在时间线上的相对位置，从而评估LLMs的推理和协作能力。

衍生相关工作

CTM数据集的引入也激发了相关领域的研究。例如，研究者们可以基于CTM开发新的时间推理模型和算法，以提高LLMs在处理复杂时间关系时的准确性和效率。此外，CTM还可以用于评估和比较不同LLMs在时间推理方面的性能，从而推动LLMs的优化和改进。总之，CTM为时间推理领域的研究提供了新的思路和方向，并为LLMs的实际应用开辟了新的可能性。

数据集最近研究