CHAIN (Causal Hierarchy of Actions and Interactions)
收藏arXiv2026-02-24 更新2026-02-26 收录
下载链接:
https://social-ai-studio.github.io/CHAIN/
下载链接
链接失效反馈官方服务:
资源简介:
CHAIN是由新加坡科技设计大学等机构联合开发的交互式3D物理推理基准测试,包含109个机械拼图和空间堆叠任务,分为三个难度等级。数据集通过Unity引擎和Python 3D环境构建,采用多视角观察和色彩提示控制方案,重点评估智能体对几何约束、接触力学和多体支撑关系的理解能力。该基准旨在推动物理基础智能体的发展,解决传统视觉语言模型在长程规划、可行性推理和动作执行方面的局限性,适用于具身智能、交互设计和自动化操作等领域的研究。
CHAIN is an interactive 3D physical reasoning benchmark co-developed by institutions including the Singapore University of Technology and Design, consisting of 109 mechanical puzzle and spatial stacking tasks divided into three difficulty levels. The dataset is constructed using the Unity engine and Python-based 3D environments, adopting a multi-view observation and color cue control scheme, with a focus on evaluating an AI agent's understanding of geometric constraints, contact mechanics, and multi-body support relationships. This benchmark aims to advance the development of physically grounded AI agents, addressing the limitations of traditional vision-language models in long-horizon planning, feasibility reasoning, and action execution, and is applicable to research in embodied intelligence, interactive design, automated manipulation, and other related fields.
提供机构:
新加坡科技设计大学; 新加坡管理大学; 中国科学技术大学; 南洋理工大学
创建时间:
2026-02-24
搜集汇总
数据集介绍
构建方式
在物理推理领域,传统评估多聚焦于静态场景理解,而CHAIN数据集的构建则转向了交互式三维物理环境。其构建过程遵循严谨的三步流程:首先从权威谜题库中筛选具有因果依赖关系的候选谜题,依据人类专家完成时间划分难度等级;随后利用Unity与轻量级Python引擎分别实现复杂机械拼插与空间堆叠任务,确保物理约束的精确模拟;最终通过统一的多视角观测与闭环交互协议,构建了包含109个独立关卡的可复现测试平台,为模型的结构化推理能力提供了系统化评估基础。
特点
CHAIN数据集的核心特点在于其深度融合了物理约束与交互式评估范式。该数据集通过两类任务家族——机械拼插谜题与三维空间堆叠,系统性地考察模型对几何结构、接触关系与支撑约束的联合推理能力。其任务设计强调长时程规划与因果链式决策,要求智能体在动态环境中依据中间状态迭代调整行动序列。数据集具备清晰的难度分层结构,并提供了涵盖任务成功率、规划效率与成本效益的多维度评估指标,从而能够全面揭示模型在将感知转化为有效行动过程中存在的根本性局限。
使用方法
CHAIN数据集的使用旨在评估模型在闭环物理问题解决中的能力。评估时,模型被置于统一的交互协议下:在每个时间步,模型接收任务指令、压缩的交互历史以及当前环境的多视角视觉观察,随后从预定义的动作空间中选择一个动作执行。该过程循环进行,直至任务解决或达到预设步数上限。评估不仅关注最终的任务通过率,还通过平均步数、距离最优解差距以及单位令牌/美元解决任务数等指标,综合衡量模型的规划效率与经济性,为开发具备物理基础的结构感知智能体提供了可靠的基准。
背景与挑战
背景概述
在具身智能与交互式设计等现实应用中,理解物理结构对于实现长时程操作至关重要。然而,现有的视觉-语言模型评估多集中于静态、单轮次的被动感知任务,难以衡量模型在动态环境中基于几何、接触与支撑关系进行结构化动作序列推理的能力。为填补这一空白,新加坡科技设计大学等机构的研究团队于2026年提出了CHAIN基准,这是一个基于物理引擎的交互式三维测试平台,旨在推动模型从被动感知向主动问题解决的范式转变。该数据集通过机械拼图与三维堆叠等任务族,系统评估模型在物理约束下的理解、规划与执行能力,为具身智能领域提供了重要的评估工具与研究基础。
当前挑战
CHAIN数据集旨在解决交互式物理推理这一核心领域问题,其挑战在于要求模型在动态、多步交互中理解几何约束、接触依赖与支撑关系,并生成可行的长时程动作序列。现有顶尖模型在此任务上表现仍显不足,尤其在复杂三维拼图中,模型难以内化物理结构,常因无法推断隐藏约束而导致规划失败。在构建过程中,挑战同样显著:需将多样化的真实拼图与程序化生成的堆叠任务统一为可控、可复现的交互环境,同时确保任务具有清晰的难度分层与链式因果依赖,并设计兼顾正确性与效率的评估指标,以全面衡量模型的闭环推理能力。
常用场景
经典使用场景
在具身智能与交互式机器人领域,CHAIN数据集被广泛用于评估视觉语言模型在动态物理环境中的结构感知与因果推理能力。该数据集通过模拟三维机械拼图与空间堆叠任务,要求模型在几何约束、接触关系与支撑条件的多重限制下,规划并执行多步动作序列,从而推动研究从被动感知向主动问题解决的范式转变。
解决学术问题
CHAIN数据集主要解决了当前视觉语言模型评估中存在的静态化与单轮交互局限,填补了物理约束下长时程推理能力测试的空白。它使研究者能够系统探究模型对隐藏几何约束、接触依赖与多体支撑关系的理解,为提升模型在动态环境中的结构敏感决策与因果链推理提供了关键基准。
衍生相关工作
CHAIN的推出激发了多项围绕物理推理与交互评估的衍生研究。例如,后续工作进一步扩展了其在多模态强化学习框架下的应用,开发了基于约束感知的动作生成模型;同时,该数据集也促进了世界模型在物理合规性验证方面的研究,推动了如VisGym等多环境仿真平台的发展,以支持更广泛的具身智能评估。
以上内容由遇见数据集搜集并总结生成



