KinDER

Name: KinDER
Creator: 普林斯顿大学; 卡内基梅隆大学; 佐治亚理工学院; 剑桥大学; 英伟达; 麻省理工学院
Published: 2026-04-28 23:58:09
License: 暂无描述

arXiv2026-04-28 更新2026-04-30 收录

下载链接：

https://prpl-group.com/kinder-site/

下载链接

链接失效反馈

官方服务：

资源简介：

KinDER是一个专注于机器人物理推理的基准数据集，由多个顶尖研究机构联合开发。该数据集包含25个程序生成的模拟环境，涵盖2D和3D场景，旨在解决机器人学习与规划中的核心物理推理挑战。数据集内容包含参数化技能、演示数据及标准化评估套件，支持任务与运动规划、模仿学习等多种方法。其应用领域聚焦于机器人物理推理能力的系统性评估与提升，通过隔离感知和语言理解等干扰因素，为物理推理研究提供纯净的实验平台。

提供机构：

普林斯顿大学; 卡内基梅隆大学; 佐治亚理工学院; 剑桥大学; 英伟达; 麻省理工学院

创建时间：

2026-04-28

原始信息汇总

数据集概述：KinDER

KinDER 是一个用于机器人学习和规划的物理推理基准测试集，全称是 Kinematic and Dynamic Embodied Reasoning（运动学与动力学具身推理）。

核心目标

旨在评估机器人系统在物理世界交互中所需的运动学和动力学约束推理能力，包括空间关系、非抓取式多物体操作、工具使用、组合几何约束和动态约束。该基准测试旨在剥离感知、语言理解和特定应用复杂度，单独考察物理推理能力。

构成组件

25 个程序化生成的环境：分为四个类别（运动学2D、运动学3D、动力学2D、动力学3D），包含如 Obstruction2D、Shelf3D、ScoopPour3D 等具体任务。
Gymnasium 兼容的 Python 库：提供参数化的技能和示范数据。
标准化评估套件：实现了 13 个基线方法，涵盖模仿学习、强化学习、基于基础模型的规划、扩散模型规划以及任务与运动规划。

任务挑战

强化学习：环境具有长时域和稀疏奖励，任务分布多样化，要求策略具有良好的泛化能力。
模仿学习：仅模仿表面模式不足以泛化到广泛的任务分布，需要理解物理约束。
视觉-语言模型：物理推理（尤其是空间推理）难以用自然语言表示，是已知挑战。
分层方法：高层与低层决策之间存在耦合，会导致困难。
任务与运动规划：不提供任何模型，用户需自行设计，且多物体环境可能导致规划缓慢。
人类工程师：任务分布多样且时间跨度长，设计通用解决方案具有挑战性。

基线方法

提供多种基线方法实现，包括：

双层规划：TAMP 风格的双层规划。
领域特定策略：具有领域特定模型的人工设计策略。
扩散策略：从示范中学习。
强化学习：稀疏和密集奖励下的强化学习。
VLA 策略：通过示范微调 pi-0.5。
LLM 与 VLM 规划：基于大型语言模型和视觉-语言模型的规划。

实验结果

根据主要实验结果，现有方法在大多数环境中表现不佳，表明当前物理推理方法存在显著差距。成功率为 5 个随机种子、每个种子 50 个 episode 下的平均值 ± 标准差。

真实机器人验证

提供了在移动操作器上进行的真实-仿真-真实（real-to-sim-to-real）实验，以评估仿真与真实世界物理交互之间的一致性。

安装与使用

安装：通过 pip install kindergarden 安装，或仅安装特定类别（如 kindergarden[kinematic2d]）。
基本使用：采用 Gym 标准 API，支持程序化环境生成、动作采样、状态渲染。
对象中心状态：所有环境使用对象中心状态（ObjectCentricState），可观察为向量形式，并支持与对象中心状态的相互转换。

引用信息

该数据集发表于 Robotics: Science and Systems (RSS), 2026。引用格式如下：

@inproceedings{huang2026kinder, title = {KinDER: A Physical Reasoning Benchmark for Robot Learning and Planning}, author = {Huang, Yixuan and Li, Bowen and Saxena, Vaibhav and Liang, Yichao and Mishra, Utkarsh and Ji, Liang and Zha, Lihan and Wu, Jimmy and Kumar, Nishanth and Scherer, Sebastian and Xu, Danfei and Silver, Tom}, booktitle = {Robotics: Science and Systems (RSS)}, year = {2026} }

搜集汇总

数据集介绍

构建方式

KinDER基准测试由三部分核心组件构成：KinDERGarden包含25个程序化生成的环境，覆盖运动学与动力学仿真，每个环境均支持无限变体生成；KinDERGym提供与Gymnasium兼容的Python库，集成参数化技能、多种遥操作接口及预采集演示数据集；KinDERBench则内置13种基线方法的标准评估套件，涵盖任务与运动规划、模仿学习、强化学习及基础模型等不同范式。环境基于物体中心的状态表征设计，支持RGB图像与固定维度状态向量两种观测模式。

特点

该基准测试聚焦于五项核心物理推理挑战：基本空间关系、非抓取式多物体操作、工具使用、组合几何约束以及动态约束。25个环境被划分为运动学二维、动力学二维、运动学三维和动力学三维四大类别，通过不同层次的抽象实现物理推理能力的解耦评估。每个环境均采用稀疏奖励机制与程序化任务生成策略，支持无限变体，且所有环境均实现物体中心的状态表征，便于研究者评估模型在不同物体数量下的泛化能力。

使用方法

研究者可通过KinDERGym的Gymnasium兼容接口直接调用环境，利用物体中心状态或RGB图像作为输入。基线方法覆盖任务与运动规划、模仿学习、强化学习及基础模型四大类别，所有基线均已开放源代码。环境支持参数化技能与概念定义，可用于分层规划与学习实验。此外，KinDER提供多种遥操作接口（含VR与手机控制）用于人类演示采集，并已预置超过100条演示轨迹供10个环境使用，便于研究者快速开展实验与对比分析。

背景与挑战

背景概述

KinDER 数据集由普林斯顿大学、卡内基梅隆大学、佐治亚理工学院、剑桥大学、英伟达及麻省理工学院的研究人员于2026年共同创建，旨在系统性地评估机器人学习与规划中的物理推理能力。核心研究问题聚焦于机器人如何理解与利用自身形态、环境物理规律及任务需求所施加的运动学与动力学约束。该数据集涵盖25个过程化生成的环境，并提供了标准化的评估套件及13个基线方法，填补了现有基准在物理推理专项评估上的空白，对推动机器人物理推理研究的发展具有显著影响力。

当前挑战

KinDER 所面临的挑战包括：1) 领域问题方面，现有方法难以应对五大核心物理推理挑战：基本空间关系、非抓取式多对象操作、工具使用、组合几何约束以及动态约束，这些挑战往往被感知、语言理解等非核心因素所掩盖；2) 构建过程中，需确保模拟环境能够忠实映射真实世界的物理交互，同时需提供足够多样化的任务分布与过程化生成机制，以避免方法过度适应特定场景，这要求在环境设计、状态表示及评估指标上达到精细且全面的平衡。

常用场景

经典使用场景

在机器人学习与规划领域，物理推理能力一直是制约智能体泛化性能的核心瓶颈。KinDER作为一项专为运动学与动力学具身推理设计的基准，其经典使用场景在于系统评估与比较机器人对物理世界约束的理解与应对能力。研究者借助KinDERGarden中25个过程生成的环境，能够独立且精准地测试机器人在基本空间关系、非抓取式多物体操作、工具使用、组合几何约束以及动态约束这五大核心挑战上的表现。通过KinDERGym提供的标准化Gymnasium接口与参数化技能，以及KinDERBench中集成的13种涵盖任务与运动规划、模仿学习、强化学习及基础模型方法的基线，用户可以复现并对比不同技术路线在同一物理推理任务上的成效，从而澄清当前领域内关于物理推理先进状态的分歧。

实际应用

KinDER的意义不仅止于实验室内的算法对比，其设计理念天然指向真实世界的复杂操作场景。在实际应用中，机器人常需面对桌面的杂乱摆放、货架的有限空间以及工具的非标准使用等挑战——正对应KinDER所聚焦的核心难题。通过KinDER内置的真实到仿真再到真实的对齐验证流程，开发者能够先在廉价且可重复的仿真环境中快速迭代与验证物理推理策略，再将其迁移至TidyBot++等移动操作平台上执行。这一范式极大地降低了真实机器人系统的调试成本与安全风险，尤其适合于家庭服务、仓储物流、精密装配等对物理交互可靠性有极高要求的领域。KinDER的开放与可扩展特性，也意味着产业界能将其作为物理推理能力的标准化测试床，加速研究成果向商业产品的转化进程。

衍生相关工作

自KinDER发布以来，其丰富的环境库与统一的评估接口已催生了一系列富有启发性的衍生工作。受KinDER中对短期规划与物理直觉融合的探索启发，研究者开始将扩散模型与符号规划相结合，发展出能够在不依赖显式技能定义的情况下完成长时序物理推理的生成式技能链方法。KinDERGym中提供的参数化技能与概念分类器，亦成为后续研究可微物理推理与谓词发现工作的理想测试平台。此外，基于KinDERBench的公开基线结果，多条研究脉络正在被激活：包括利用大语言模型的上下文学习能力来替代人工定义的搜索启发式，以及通过视觉-语言-动作模型的端到端微调来隐式编码物理约束。这些工作在KinDER的量化框架下得以公平比较，使得领域逐渐聚拢共识，推动物理推理从个案演示迈向系统性进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集