TTT-Bench

Name: TTT-Bench
Creator: AMD（美国超威半导体公司）
Published: 2025-06-12 06:03:19
License: 暂无描述

arXiv2025-06-12 更新2025-06-14 收录

下载链接：

https://prakamya-mishra.github.io/TTTBench

下载链接

链接失效反馈

官方服务：

资源简介：

TTT-Bench是一个用于评估大型推理模型（LRMs）在基本战略、空间和逻辑推理能力方面的新基准，它通过一系列四个人工设计的两人制井字游戏来测试这些能力。这些游戏虽然对人类来说很简单，但需要推理对手的意图以及游戏板的空间配置。数据集包含了四种游戏类型：普通井字游戏（oTTT）、双重井字游戏（dTTT）、立方体井字游戏（cTTT）和正方形井字游戏（sTTT）。每个游戏都有其独特的胜利条件和游戏状态。数据集包含约100个样本，每个游戏类型都有可验证的答案。TTT-Bench旨在评估LRMs在解决需要基本战略、空间和逻辑推理的简单任务方面的能力，以解决当前LRMs在数学以外的推理能力评估不足的问题。

TTT-Bench is a novel benchmark for evaluating Large Reasoning Models (LRMs) on their fundamental strategic, spatial, and logical reasoning capabilities. It tests these abilities via a set of four manually designed two-player tic-tac-toe games. Though simple for humans, these games require reasoning about opponents' intentions and the spatial configuration of the game board. The dataset includes four game variants: ordinary tic-tac-toe (oTTT), double tic-tac-toe (dTTT), cubic tic-tac-toe (cTTT), and square tic-tac-toe (sTTT). Each variant features unique winning conditions and game states. The dataset contains roughly 100 samples, with verifiable answers available for each game type. TTT-Bench is designed to assess LRMs' ability to solve simple tasks demanding basic strategic, spatial, and logical reasoning, thereby addressing the current gap in evaluating LRMs' reasoning capabilities beyond mathematical contexts.

提供机构：

AMD（美国超威半导体公司）

创建时间：

2025-06-12

搜集汇总

数据集介绍

构建方式

TTT-Bench采用程序化方法构建，通过四种基于井字棋变体的双人游戏（oTTT、dTTT、cTTT和sTTT）生成评估问题。研究者设计了一种启发式算法，自动识别游戏状态中的最优下一步行动，并验证其正确性。该流程首先生成所有可能的N步游戏状态，筛选出未决胜负且无必胜局面的场景，最终保留符合'胜利'、'阻挡'或'分叉'三类裁决标准的412个问题样本。这种生成方式确保了问题的多样性和可验证性，同时避免了训练数据污染的风险。

使用方法

使用TTT-Bench时需通过标准化的文本交互界面呈现游戏状态，要求模型预测当前玩家的最优落子位置。评估采用Pass@1指标，每个问题生成16个响应（温度参数0.6，top-p值0.95），通过正则表达式从最后标注答案中提取预测结果。对于封闭模型采用单次响应评估。研究建议重点关注模型在'分叉'类问题上的表现，这能有效反映长期战略推理能力的缺陷。该基准支持自动化的新问题生成，用户可通过调整游戏步数参数（如oTTT的N=4-5）控制问题难度，持续扩展评估范围。

背景与挑战

背景概述

TTT-Bench是由Advanced Micro Devices, Inc. (AMD)的研究团队于2025年提出的一个创新性基准测试，旨在评估大型推理模型（LRMs）在基础战略、空间和逻辑推理能力方面的表现。该基准通过四种基于井字游戏的变体（oTTT、dTTT、cTTT和sTTT），系统地考察模型在简单但对人类而言直观的推理任务中的表现。TTT-Bench的提出填补了现有推理评估主要集中于STEM领域的空白，为理解LRMs在更广泛推理任务中的能力提供了新的视角。

当前挑战

TTT-Bench面临的主要挑战包括：1) 领域问题挑战：尽管LRMs在复杂数学问题上表现出色，但在需要基础战略和空间推理的简单游戏任务中表现不佳，揭示了模型在跨领域推理能力上的局限性；2) 构建过程挑战：为确保评估的可靠性，研究团队需要设计全新的游戏变体以避免数据污染风险，同时开发可验证的自动化问题生成方法，这要求精确的启发式算法设计和大规模的游戏状态空间探索。

常用场景

经典使用场景

TTT-Bench作为一种专门设计的基准测试工具，主要用于评估大型推理模型（LRMs）在基础战略、空间和逻辑推理能力上的表现。通过四种类似井字棋的双人游戏（oTTT、dTTT、cTTT和sTTT），该数据集能够测试模型在预测对手意图、理解空间配置以及制定多步策略方面的能力。这些游戏对人类而言极为简单，但对模型来说却具有挑战性，从而有效揭示了模型在基础推理任务上的潜在缺陷。

解决学术问题

TTT-Bench解决了当前推理模型评估中存在的领域局限性问题。传统评估多集中于STEM领域，而该数据集通过引入战略性和空间性推理任务，填补了非数学领域推理能力评估的空白。其研究意义在于揭示了模型在简单任务上的表现与其在复杂数学问题上的能力之间的显著差异，为模型推理能力的全面评估提供了新的视角。

实际应用

在实际应用中，TTT-Bench可作为模型开发过程中的重要测试工具，帮助开发者识别和改善模型在战略规划和空间推理方面的不足。此外，该数据集的可扩展生成方法为创建更多样化的评估基准提供了技术参考，有助于推动更全面的AI系统评估标准的发展。

数据集最近研究