clamp-benchmark

Hugging Face2026-05-03 更新2026-05-04 收录

下载链接：

https://huggingface.co/datasets/clamp-benchmark/clamp-benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

CLAMP Benchmark是一个专注于运动学姿态估计和装配推理的模拟到真实基准数据集，旨在解决现有数据集未涵盖的挑战，如闭环运动链、棱柱关节和结构装配扰动。数据集包含七种不同类型的设备，每种设备有两种配置：仅运动学和运动学装配。数据集分为训练集（合成数据，约100万张图像）、验证集（合成数据）和测试集（真实数据，约21,000张图像）。数据字段包括运动学模型定义、关节状态注释、RGB图像、相机位姿、分割掩码、深度图等。数据集采用CC-BY 4.0许可，适用于工业感知、维护辅助和机器人操作等研究。

The CLAMP Benchmark is a simulation-to-real benchmark dataset focused on kinematic pose estimation and assembly reasoning, aiming to address challenges not covered by existing datasets, such as closed-loop kinematic chains, prismatic joints, and structural assembly perturbations. The dataset includes seven different types of devices, each with two configurations: kinematic-only and kinematic assembly. The dataset is divided into a training set (synthetic data, approximately 1 million images), a validation set (synthetic data), and a test set (real data, approximately 21,000 images). Data fields include kinematic model definitions, joint state annotations, RGB images, camera poses, segmentation masks, depth maps, etc. The dataset is licensed under CC-BY 4.0 and is suitable for research in industrial perception, maintenance assistance, and robotic manipulation.

创建时间：

2026-05-02

原始信息汇总

CLAMP Benchmark 数据集概述

数据集简介

CLAMP（Closed-Loop Assembly and Mechanism Perception）是一个面向运动学姿态估计和装配推理的模拟到现实（Sim-to-Real）基准数据集，专注于测试复杂机械设备的感知能力。数据集主要挑战包括闭环运动链、棱柱关节以及结构装配扰动（缺失部件导致几何和运动学变化）。

数据集规模

总图像数量：超过100万张（1M < n < 10M）
合成数据：约1.14 TB
真实数据：约60 GB
真实测试集：21,000张图像（210个场景 × 约100帧）

设备类型

数据集涵盖七种机械设备：

设备名称	关节类型	闭环	主动自由度	网格部件数
笛卡尔3D打印机	棱柱关节	✗	3	267
CNC雕刻机	棱柱关节	✓	7	186
Delta 3D打印机	旋转+棱柱关节	✓	27	192
液压千斤顶	旋转+棱柱关节	✓	13	52
机械臂（6自由度+夹爪）	旋转关节	✓	11	195
四足机器人	旋转关节	✓	20	419
台锯	旋转+棱柱关节	✗	11	59

支持任务

运动学姿态估计：从单张RGB图像预测关节角度/平移量（已知运动学模型）
装配状态推理：预测每个部件是否存在（逐骨骼和逐网格的二分类）
目标检测：检测场景中的设备（边界框预测）

数据集结构

配置

每个设备包含两种配置：

kinematics_only：所有部件存在，仅运动学状态变化
kinematics_assembly：部件可被移除，运动学和装配状态同时变化

数据划分

划分	来源	用途	数量
`train`	合成（BlenderProc）	训练	所有设备总计约100万+图像
`val`	合成（BlenderProc）	验证	每设备子集
`test`	真实（4K iPhone视频）	评估	约21,000张图像

目录结构

├── real/ # 真实测试图像 │ ├── kinematics_only/ │ │ └── <设备>/ │ │ ├── armature.json # 运动学模型定义 │ │ ├── objs/ # 网格文件（OBJ格式） │ │ └── <场景ID>/ │ │ ├── equipment_pose.json # 真实关节状态 │ │ ├── rgb/ # 4K JPEG图像 │ │ ├── rgb_pose/ # 相机到世界变换 │ │ ├── rgb_intrinsics/ # 相机内参 │ │ ├── correspondences/ # 2D-3D标注对应点 │ │ └── ground_truth_detections/ # 真实边界框 │ └── kinematics_assembly/ │ ├── synthetic/ # 合成训练/验证图像 │ ├── kinematics_only/ │ │ └── <设备>/ │ │ ├── train/ │ │ │ ├── armature.json │ │ │ ├── bounding_boxes.json │ │ │ ├── objs/ │ │ │ └── scene_<UUID>/ │ │ │ ├── equipment_pose.json │ │ │ ├── rgb/ # PNG图像 │ │ │ ├── segmentation/ # 实例分割掩码 │ │ │ ├── depth/ # 16位深度图 │ │ │ └── equipment_points/ # NOCS对应映射 │ │ └── val/ │ └── kinematics_assembly/ │ └── sample/ # 小型采样子集

数据字段

armature.json — 运动学模型：定义每类设备的完整运动学结构，包含骨骼的层级变换、自由度限制、关节范围及骨骼间约束（IK、拉伸、子级约束）。

equipment_pose.json — 关节状态标注：每个场景的关节状态真值，包含所有骨骼和网格相对于休息姿态的增量变换。

每帧数据：

文件	格式	描述
`rgb/XXXXXX.{png,jpg}`	图像	RGB图像（合成：PNG；真实：JPEG，4K）
`rgb_pose/XXXXXX.npy`	float64 (4×4)	相机到世界变换矩阵
`rgb_intrinsics/XXXXXX.npy`	float64 (3×3)	相机内参矩阵
`segmentation/XXXXXX.{png,npy.gz}`	掩码	逐像素部件实例分割（仅合成）
`depth/XXXXXX.png`	uint16	深度图（仅合成）
`equipment_points/XXXXXX.png`	uint8×3	NOCS对应映射（仅合成）
`ground_truth_detections/XXXXXX.json`	JSON	真实边界框（仅真实）
`correspondences/XXXXXX.json`	JSON	2D-3D标注对应点（仅真实，标注帧）

坐标系说明

世界空间：右手系，Z轴向上，-Y轴向前（Blender惯例）
相机空间：右手系，+Z朝向场景，+Y向下（计算机视觉惯例）
图像空间：原点在左上角，+X向右，+Y向下
旋转顺序：Euler XYZ
单位：米

数据集创建

合成数据

使用基于BlenderProc的自定义管线生成：

约束姿态采样：通过内部优化（CasADi + IPOPT）在运动学约束流形上采样有效配置
随机部件移除：在部件邻接图上进行连通子图采样，并自动重构运动学结构
域随机化：随机PBR材质、光照（点光源+HDRI）、相机视角、干扰物体和地面

真实数据

采集：4K iPhone轨道视频（每场景约100帧）
相机标定：COLMAP稀疏重建
标注：自定义交互式2D-3D对应点标注工具
关节状态恢复：多视图约束优化（CasADi + IPOPT）
标注质量：平均RMS重投影误差11.0像素（4K图像，小于图像宽度的0.3%）

隐私与伦理

数据集不包含任何个人或敏感信息。所有图像仅展示工业/爱好设备，无人类、人脸或个人可识别信息。

社会影响与应用

潜在应用包括：

增强现实引导的设备维护
自动化装配验证
远程设备监控
机器人工具/夹具感知

局限性

设备多样性：仅7类设备，机械多样性范围广但数量有限
CAD依赖：需要已知CAD模型及运动学规格
标注精度：CAD与实物不匹配及COLMAP标定导致的残余标注误差
域差距：合成到真实的迁移仍具挑战性

许可协议

本数据集采用Creative Commons Attribution 4.0 International License (CC-BY 4.0) 许可。

搜集汇总

数据集介绍

构建方式

CLAMP Benchmark的构建基于一套精心设计的模拟到现实（Sim-to-Real）数据生成与采集流程。合成数据部分采用基于BlenderProc的定制化流水线，通过对运动学约束流形进行内点法优化（CasADi与IPOPT）来采样有效的关节构型，并引入随机化部件移除策略，在零件邻接图上执行连通子图采样，自动重构运动学拓扑。同时应用领域随机化技术，随机生成PBR材质、光照条件、相机视角及干扰物体，以增强数据的多样性。真实数据部分则通过4K iPhone轨道视频采集，借助COLMAP进行稀疏重建标定相机，使用交互式工具标注2D-3D对应点，并通过多视角约束优化联合求解全局配准、尺度与运动学状态，实现了平均重投影误差仅为11.0像素（小于图像宽度的0.3%）的高精度标注。

特点

该数据集的核心特点在于其独特的运动学与装配推理挑战，涵盖了现有数据集未曾涉及的闭合运动链、棱柱关节以及结构装配扰动等复杂场景。数据集包含七种机械设备，如笛卡尔3D打印机、CNC路由器、Delta 3D打印机、液压千斤顶、机器人手臂、四足机器人和台锯，共计超过100万张合成图像与约21000张真实图像。每个设备提供两种配置：仅运动学变化场景与部件可缺失的装配推理场景，后者能有效破坏闭合链约束，模拟实际维护中的零件缺失状况。数据标注丰富，包括运动学模型定义、关节状态真值、实例分割掩码、深度图、NOCS对应图及边界框等，全面支撑关键点检测、图像分类与目标检测等任务。

使用方法

使用CLAMP Benchmark时，研究者可根据需求选择两种配置（kinematics_only或kinematics_assembly）之一，并在对应的训练集、验证集与测试集上开展实验。合成数据提供完整的PNG格式RGB图像、分割掩码、深度图及相机参数，适合大规模模型训练与预训练；真实数据则提供4K JPEG图像与相机标定文件，用于评估模型的域泛化能力与实际部署效果。数据集目录结构清晰，每个设备子文件夹下包含运动学模型文件（armature.json）、场景级关节状态标注（equipment_pose.json）以及逐帧图像与辅助数据。基准任务涵盖运动学位姿估计、装配状态推理与目标检测，研究者可参照已发布的基线方法，利用提供的预训练权重或自行设计模型，在闭源测试集上进行公平比较，推动机器人感知与工业维护领域的研究进展。

背景与挑战

背景概述

CLAMP（Closed-Loop Assembly and Mechanism Perception）基准数据集于2026年由匿名研究团队在NeurIPS数据集与评估轨道上发布，旨在推动机械系统感知领域的发展。该数据集聚焦于闭环运动链、棱柱关节及结构装配扰动（如缺失部件改变几何与运动学）等尚未被现有数据集充分覆盖的挑战性课题。通过涵盖七种高复杂度工业设备，包括笛卡尔3D打印机、CNC路由器、达美3D打印机、液压千斤顶、机械臂、机器人四足平台及台锯，CLAMP为从仿真到现实的运动学姿态估计与装配推理研究提供了标准化评估平台。其超过100万张合成图像与21,000张真实世界4K视频帧的规模，以及合成数据与真实数据协同的评测范式，显著推动了具身智能、工业维护辅助与机器人操作等前沿方向的发展。

当前挑战

CLAMP数据集所应对的核心挑战包括：其一，现有姿态估计基准多局限于开放运动链或刚性物体的简单场景，面对闭环运动链中关节间非线性约束、棱柱关节的连续平移自由度以及因部件缺失导致的运动学拓扑动态重构时，传统方法在建模与推理上存在根本性局限；其二，数据集构建过程中需解决精密CAD模型与物理设备间的几何失配、多视角标注的一致性恢复（通过COLMAP与全局优化将重投影误差控制在11.0像素以内）、以及合成数据中域随机化（如随机材料、光照与干扰物）与真实域间鸿沟的弥合——这要求在仿真流水线中融入内点优化（CasADi+IPOPT）确保有效构型采样，并设计连接子图采样算法自动处理部件缺失后的运动学重组，最终实现百万级数据的高效生成与质量保障。

常用场景

经典使用场景

在机器人感知与工业自动化领域，CLAMP基准数据集主要用于评估机械装备的闭环运动链位姿估计与装配状态推理能力。该数据集涵盖了七类具有不同关节类型和自由度的工业设备，如笛卡尔3D打印机、CNC雕刻机、六轴机械臂等，每个设备均包含完整的运动学模型定义。研究人员利用其提供的合成训练数据和真实测试图像，开展从单张RGB图像中预测关节角度或偏移量的运动学位姿估计任务，以及判断部件缺失与装配异常的装配推理任务。同时，该数据集也支持目标检测任务，用于定位场景中的设备位置，从而全面衡量算法在复杂机械场景下的视觉理解水平。

衍生相关工作

围绕CLAMP数据集已衍生出多项推动领域边界的前沿工作。在方法论层面，研究者提出了融合运动学图神经网络与可微优化器的端到端位姿估计框架，有效处理闭环约束下的联合状态回归问题。另一条主线是针对装配状态推理的工作，发展了基于部件邻接图剪枝和结构重构的缺失检测算法，突破了传统分类模型对固定拓扑的依赖。在域适应方面，涌现出利用混合现实数据增强和光度一致性损失缩小合成到真实差距的生成式方法。此外，该基准还启发了多任务学习范式的探索，将位姿估计、分割与检测统一到共享表示空间中。这些衍生工作共同推动了机械感知从实验室走向实际工业场景的进程。

数据集最近研究