KinDER
收藏数据集概述:KinDER
KinDER 是一个用于机器人学习和规划的物理推理基准测试集,全称是 Kinematic and Dynamic Embodied Reasoning(运动学与动力学具身推理)。
核心目标
旨在评估机器人系统在物理世界交互中所需的运动学和动力学约束推理能力,包括空间关系、非抓取式多物体操作、工具使用、组合几何约束和动态约束。该基准测试旨在剥离感知、语言理解和特定应用复杂度,单独考察物理推理能力。
构成组件
- 25 个程序化生成的环境:分为四个类别(运动学2D、运动学3D、动力学2D、动力学3D),包含如
Obstruction2D、Shelf3D、ScoopPour3D等具体任务。 - Gymnasium 兼容的 Python 库:提供参数化的技能和示范数据。
- 标准化评估套件:实现了 13 个基线方法,涵盖模仿学习、强化学习、基于基础模型的规划、扩散模型规划以及任务与运动规划。
任务挑战
- 强化学习:环境具有长时域和稀疏奖励,任务分布多样化,要求策略具有良好的泛化能力。
- 模仿学习:仅模仿表面模式不足以泛化到广泛的任务分布,需要理解物理约束。
- 视觉-语言模型:物理推理(尤其是空间推理)难以用自然语言表示,是已知挑战。
- 分层方法:高层与低层决策之间存在耦合,会导致困难。
- 任务与运动规划:不提供任何模型,用户需自行设计,且多物体环境可能导致规划缓慢。
- 人类工程师:任务分布多样且时间跨度长,设计通用解决方案具有挑战性。
基线方法
提供多种基线方法实现,包括:
- 双层规划:TAMP 风格的双层规划。
- 领域特定策略:具有领域特定模型的人工设计策略。
- 扩散策略:从示范中学习。
- 强化学习:稀疏和密集奖励下的强化学习。
- VLA 策略:通过示范微调 pi-0.5。
- LLM 与 VLM 规划:基于大型语言模型和视觉-语言模型的规划。
实验结果
根据主要实验结果,现有方法在大多数环境中表现不佳,表明当前物理推理方法存在显著差距。成功率为 5 个随机种子、每个种子 50 个 episode 下的平均值 ± 标准差。
真实机器人验证
提供了在移动操作器上进行的真实-仿真-真实(real-to-sim-to-real)实验,以评估仿真与真实世界物理交互之间的一致性。
安装与使用
- 安装:通过
pip install kindergarden安装,或仅安装特定类别(如kindergarden[kinematic2d])。 - 基本使用:采用 Gym 标准 API,支持程序化环境生成、动作采样、状态渲染。
- 对象中心状态:所有环境使用对象中心状态(
ObjectCentricState),可观察为向量形式,并支持与对象中心状态的相互转换。
引用信息
该数据集发表于 Robotics: Science and Systems (RSS), 2026。引用格式如下:
@inproceedings{huang2026kinder, title = {KinDER: A Physical Reasoning Benchmark for Robot Learning and Planning}, author = {Huang, Yixuan and Li, Bowen and Saxena, Vaibhav and Liang, Yichao and Mishra, Utkarsh and Ji, Liang and Zha, Lihan and Wu, Jimmy and Kumar, Nishanth and Scherer, Sebastian and Xu, Danfei and Silver, Tom}, booktitle = {Robotics: Science and Systems (RSS)}, year = {2026} }




