CorDex

Name: CorDex
Creator: 康奈尔大学; 谷歌研究院
Published: 2026-01-09 02:59:30
License: 暂无描述

arXiv2026-01-09 更新2026-01-10 收录

下载链接：

https://cordex-manipulation.github.io

下载链接

链接失效反馈

官方服务：

资源简介：

CorDex是由康奈尔大学和谷歌研究院联合开发的机器人灵巧抓取数据集，包含9个类别900种物体的1100万条合成抓取数据。该数据集通过创新的三阶段数据引擎生成：首先基于单个人类演示视频检索互联网图像生成多样化3D物体模型；其次通过2D-3D对应关系迁移专家抓取动作；最后通过物理优化适配机器人手型。数据集特别关注功能语义与几何特征的结合，旨在解决机器人工具使用中功能性抓取的泛化难题，为复杂操作任务提供高质量训练基准。

CorDex is a robotic dexterous grasping dataset co-developed by Cornell University and Google Research. It contains 11 million synthetic grasping data points for 900 objects across 9 categories. This dataset is generated via an innovative three-stage data pipeline: first, diverse 3D object models are generated by retrieving internet images based on single human demonstration videos; second, expert grasping motions are transferred via 2D-3D correspondences; finally, the motions are adapted to robotic hands through physical optimization. The dataset specifically focuses on the integration of functional semantics and geometric features, aiming to address the generalization challenge of functional grasping in robotic tool use, and provides a high-quality training benchmark for complex manipulation tasks.

提供机构：

康奈尔大学; 谷歌研究院

创建时间：

2026-01-09

原始信息汇总

CorDex 数据集概述

数据集名称

CorDex

核心目标

从单次人类演示中，通过生成、转移、适应三个步骤，学习灵巧手的功能性抓取。

关键方法

CorDex 数据引擎：通过生成、转移、适应三个阶段，从单次人类演示生成多样化、高质量的功能性抓取数据。
CorDex 抓取预测网络：整合来自单视角RGB-D输入的语义和几何信息，通过重要性感知采样机制和局部-全局融合模块，预测功能性灵巧抓取。

数据集内容

规模：包含900个物体，110万张图像，以及1100万个图像-抓取对。
覆盖范围：涵盖九个任务和两种不同自由度的灵巧手（Shadow和Inspire）。

性能表现

在真实世界未见过的物体上，跨六个任务的整体成功率为69%。

应用

使机器人能够功能性抓取并使用各种工具执行复杂任务。

相关资源

论文PDF链接：https://cordex-manipulation.github.io
arXiv链接：https://cordex-manipulation.github.io
代码链接：https://cordex-manipulation.github.io（即将发布）

搜集汇总

数据集介绍

构建方式

在灵巧机器人操作领域，高质量功能抓取数据的稀缺长期制约着模型泛化能力。CorDex数据集通过创新的三阶段数据引擎，从单个人类演示视频中高效生成大规模训练数据。首先，基于演示视频中的物体类别，从互联网检索图像并利用2D转3D生成技术创建多样化的物体模型。随后，通过场景与手部重建提取演示中的三维指尖接触点，并借助先进的2D-3D跨实例对应关系管道，将这些接触点稳健地迁移至新生成的物体上。最后，通过物理信息化的抓取适配优化过程，将迁移后的接触点转化为满足功能性与稳定性双重约束的机器人抓取姿态，并利用物理仿真验证生成标签的质量，最终构建了涵盖九类物体、包含1100万图像-抓取对的大规模数据集。

特点

CorDex数据集的核心特点在于其卓越的多样性与高质量标注。数据集覆盖了钻头、注射器、订书机等九类功能物体，每类包含100个具有显著形状与外观差异的实例，充分模拟了真实世界的类别内多样性。其标注不仅包含高维的机器人手部姿态与关节角度，更通过物理仿真严格验证了每个抓取的功能性（即与物体功能区域的精确接触）与物理稳定性。尤为突出的是，数据生成过程保留了迁移接触点的多个候选假设，显式地建模了跨实例对应关系中的模糊性，为下游模型学习提供了丰富的监督信号。这种基于单演示、大规模生成的数据构建范式，有效解决了灵巧功能抓取领域数据获取成本高昂的瓶颈。

使用方法

CorDex数据集主要用于训练和评估能够从单视角RGB-D输入预测功能性灵巧抓取的模型。在使用时，研究者通常将数据集划分为训练集、验证集和测试集，确保评估在未见过的物体实例上进行。数据集提供的配对数据包括渲染的RGB-D图像、对应的物体分割掩码、以及经过验证的机器人抓取配置（手部位姿与关节角度）。基于此，可以训练类似论文中提出的多模态预测网络，该网络融合图像的语义特征与点云的几何特征，并通过重要性感知采样与局部-全局融合模块，专注于预测与物体功能区域交互的抓取。训练后的模型能够接收单视角RGB-D观测，直接输出满足功能与稳定要求的抓取距离矩阵，进而通过多边定位与逆运动学恢复为可执行的机器人动作，实现对新物体的类别级泛化。

背景与挑战

背景概述

CorDex数据集由康奈尔大学等机构的研究团队于2026年提出，旨在解决灵巧手功能性抓取领域长期存在的两大瓶颈：大规模高质量标注数据的稀缺性，以及学习模型在语义与几何推理整合方面的不足。该数据集的核心研究问题在于如何从单个人类演示视频出发，通过基于对应关系的数据引擎在仿真环境中自动生成多样化、高质量的训练数据，从而实现对未见物体实例的鲁棒性功能性抓取预测。CorDex通过构建涵盖九个物体类别、包含约1100万图像-抓取对的大规模合成数据集，显著推动了机器人灵巧操作领域从依赖海量真实标注数据向高效数据合成与跨实例泛化的范式转变。

当前挑战

CorDex数据集所针对的领域挑战在于灵巧手功能性抓取本身的高度复杂性，它要求预测的抓取配置不仅满足物理稳定性，还需精确对齐物体的功能语义区域，这对模型的跨模态感知与细粒度推理能力提出了极高要求。在数据集构建过程中，研究团队面临的主要挑战包括：如何从单次演示中可靠地提取并跨实例迁移三维接触点信息，以克服不同物体实例间显著的外观与几何差异；以及如何在仿真环境中通过物理信息化的抓取适应优化，将可能含噪的迁移接触点转化为既功能对齐又物理稳定的具体机器人手抓取配置，确保生成数据的多样性与高质量。

常用场景

经典使用场景

在灵巧操作机器人领域，CorDex数据集的核心应用场景在于为功能性抓取任务提供大规模、高质量的合成训练数据。该数据集通过基于对应关系的数据引擎，仅需单次人类演示视频，即可自动生成涵盖九类常见工具对象的数百万个抓取-图像对。研究者利用这些数据训练多模态预测网络，使机器人能够从单视角RGB-D输入中推断出既稳定又符合功能语义的灵巧抓取姿态，有效解决了传统方法因数据稀缺和语义缺失导致的泛化能力不足问题。

实际应用

在实际机器人操作中，CorDex框架能够赋能机器人执行复杂的工具使用任务。例如，机器人可以仅通过观察一次人类使用电钻或喷雾瓶的演示，便学会对形状各异的同类新物体进行符合功能意图的抓取。这为工业装配、家庭服务、医疗辅助等场景下的灵巧操作提供了可行的解决方案。实验表明，该系统在真实世界的未见物体上取得了高达69%的成功率，展现了从仿真到现实迁移的强大潜力，为开发通用型灵巧操作智能体奠定了数据与方法基础。

衍生相关工作

CorDex的工作建立在并显著推进了多个相关领域的研究。在数据生成方面，它借鉴并超越了基于3D对应关系（如SparseDFF、DenseMatcher）或类别级姿态估计（如AG-Pose）的单次演示方法，通过更鲁棒的2D-3D对应管道解决了跨实例泛化难题。在模型架构上，它扩展了纯几何驱动的抓取预测范式（如D(R,O)），引入了融合视觉与几何特征的多模态网络。此外，其数据引擎思想与利用合成数据规模化机器人学习（Sim-to-Real）的广泛趋势一脉相承，但专门针对接触丰富、语义敏感的灵巧功能性抓取挑战进行了优化设计。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集