five

ProcessedData

收藏
Hugging Face2026-05-18 更新2026-05-19 收录
下载链接:
https://huggingface.co/datasets/UCBProject/ProcessedData
下载链接
链接失效反馈
官方服务:
资源简介:
UCBProject/ProcessedData数据集是Affordance2Grasp流水线第一阶段(Phase 1A)的输出结果,专为机器人抓取任务而设计。该数据集包含两个核心部分:training_fp/目录下的训练就绪数据,用于训练PointNet++接触预测网络(Phase 2);以及human_prior_fp/目录下的推理就绪数据,用于抓取采样、仿真执行和Sim2Real部署(Phase 3)。数据来源于两个公开数据集:OakInk(包含100个对象,对象ID如A01001、C*、O*等)和DexYCB(包含20个对象,对象ID如ycb_dex_01至ycb_dex_20)。每个对象的数据以HDF5格式存储,包含点云(4096个表面采样点,三维坐标,float32)、法线(每个点的单位法向量,float32)、人类先验接触概率(每个点的接触概率,经高斯平滑和逐对象最大归一化,float32)、机器人地面真值(全零占位符,float32)、力中心(接触概率≥80百分位的网格顶点质心,float32)以及对象ID属性(字符串)。数据集适用于机器人抓取中的接触预测、抓取规划等任务,原始数据基于DexYCB(NVIDIA,CC-BY-NC-4.0许可)和OakInk(CVPR 2022)重建的SAM3D对象网格生成。

The UCBProject/ProcessedData dataset is the output of Phase 1A in the Affordance2Grasp pipeline, specifically designed for robotic grasping tasks. It consists of two core components: training-ready data in the training_fp/ directory for training the PointNet++ contact prediction network (Phase 2), and inference-ready data in the human_prior_fp/ directory for grasp sampling, simulation execution, and Sim2Real deployment (Phase 3). The data is sourced from two public datasets: OakInk (containing 100 objects with IDs such as A01001, C*, O*, etc.) and DexYCB (containing 20 objects with IDs from ycb_dex_01 to ycb_dex_20). Each objects data is stored in HDF5 format and includes the following fields: point cloud (4096 surface sampling points, 3D coordinates, float32), normals (unit normal vectors per point, float32), human prior contact probability (contact probability per point, Gaussian-smoothed and per-object max-normalized, float32), robot ground truth (all-zero placeholder, float32), force center (centroid of mesh vertices with contact probability ≥ 80th percentile, float32), and object ID attribute (string). The dataset is suitable for tasks such as contact prediction and grasp planning in robotic grasping, with raw data generated from SAM3D object meshes reconstructed from DexYCB (NVIDIA, CC-BY-NC-4.0 license) and OakInk (CVPR 2022).
创建时间:
2026-05-15
原始信息汇总

数据集概述:UCBProject / ProcessedData

数据集简介

该数据集是 Affordance2Grasp 管线的 Phase 1A 输出结果,供下游阶段使用:

  • Phase 2(训练主方法 PointNet++ 接触预测网络)读取 training_fp/{dataset}/{object}.hdf5
  • Phase 3(推理、抓取采样、仿真执行、Sim2Real 部署)从 human_prior_fp/{object}.hdf5 读取每个物体的先验 affordance 信息。

数据目录结构

training_fp/ oakink/ 100 个文件 (A* C* O* S* Y* — OakInk 物体 ID) dexycb/ 20 个文件 (ycb_dex_01 ... ycb_dex_20 — DexYCB 抓取物体) human_prior_fp/ A01001.hdf5 ... Y35037.hdf5 100 个 oakink 文件 ycb_dex_01.hdf5 ... ycb_dex_20.hdf5 20 个 dexycb 文件

HDF5 数据格式

training_fp/{ds}/{obj}.hdf5(训练就绪格式)

形状 数据类型 含义
point_cloud (4096, 3) float32 SAM3D 物体网格的 4096 个表面采样点(单位:米,网格规范坐标系)
normals (4096, 3) float32 每个点的单位法向量
human_prior (4096,) float32 每个点的接触概率,范围 [0, 1](高斯平滑,每个物体最大归一化)
robot_gt (4096,) float32 全零占位符(该实验设置无机器人真实数据)
force_center (3,) float32 网格顶点中 contact_smooth >= 80th 百分位数 的质心
属性 object str 物体 ID(如 ycb_dex_14A01001

human_prior_fp/{obj}.hdf5(推理就绪格式,仅按物体索引)

与上述五个字段相同,内容与 training_fp/{ds}/{obj}.hdf5 一致,但跨数据集扁平化,以便 inference/predictor.py 仅通过物体 ID 读取。

数据来源与生成

  • 生成流程: data/batch_depth_pro.pydata/batch_haptic.pytools/batch_obj_pose.pydata/batch_align_mano_fp.py
  • 原始数据源:
    • DexYCB(NVIDIA,CC-BY-NC-4.0 许可)
    • OakInk(CVPR 2022)
  • Phase 1A 运行环境: 实验室 RTX 5090
    • OakInk 完成于 2026-05-10
    • DexYCB 完成于 2026-05-14
  • 未包含的数据集: HO3D-v3 和 ARCTIC 暂未纳入,后续将在合作伙伴完成相应数据集的 Phase 1A 后添加。

上游数据

上游物体网格(SAM3D 重建)存储在相关仓库 UCBProject/ObjMesh 中。

搜集汇总
数据集介绍
main_image_url
构建方式
ProcessedData数据集源自Affordance2Grasp管线的第一阶段产出,其构建遵循一套严谨的多步骤流水线。原始数据分别来源于DexYCB(NVIDIA发布,采用CC-BY-NC-4.0许可)和OakInk(源自CVPR 2022论文)两个公开数据集。上下游链路依次执行`data/batch_depth_pro.py`、`data/batch_haptic.py`、`tools/batch_obj_pose.py`以及`data/batch_align_mano_fp.py`脚本,最终在实验室RTX 5090平台上完成计算。OakInk部分于2026年5月10日完成处理,DexYCB部分则于2026年5月14日完成,分别生成了100个和20个对象的HDF5格式文件。
特点
该数据集核心特点在于其双轨结构,分别服务于训练与推理阶段。`training_fp`目录下的数据包含完整的4096点采样点云、单位法向量、人工标注的先验接触概率(经高斯平滑与对象内最大归一化处理)、机器人真实标注占位符(全零)以及力作用中心坐标。而`human_prior_fp`目录的数据则在保留相同五字段结构基础上,按对象ID扁平化组织,使得推理阶段可直接依凭对象ID索引先验信息。此外,`point_cloud`字段的坐标采用公制单位且位于网格规范坐标系中,确保了与上游SAM3D重建网格的一致性。
使用方法
该数据集服务于Affordance2Grasp管线的后续两阶段。使用上,第二阶段(即基于PointNet++的接触预测网络训练)需读取`training_fp/{dataset}/{object}.hdf5`文件,其中`human_prior`字段作为监督信号参与模型优化。第三阶段涉及推理、抓取采样、仿真执行及Sim2Real部署,此时应读取`human_prior_fp/{object}.hdf5`文件,利用预计算的人工先验信息引导抓取策略。需注意,HO3D-v3与ARCTIC数据集尚未纳入当前版本,待合作方完成各自第一阶段处理后补齐。所有HDF5文件的字段结构与属性名称需严格按schema文档解析。
背景与挑战
背景概述
ProcessedData数据集是UCBProject团队在2026年5月发布的阶段性成果,由实验室基于RTX 5090计算平台生成,旨在为机器人抓取任务中的接触点预测提供标准化训练与推理数据。该数据集源于Affordance2Grasp流水线的Phase 1A输出,核心研究问题聚焦于如何从人类示教中学习物体可供性先验,进而引导机器人在复杂场景中实现稳定抓取。数据集整合了DexYCB(NVIDIA)与OakInk(CVPR 2022)两大公开数据集,通过深度处理、触觉信号对齐及手部姿态映射等流程,生成了包含点云、法线、人类接触先验等关键信息的HDF5文件。其创新性在于提供了跨数据集的统一特征表示,并明确了训练与推理阶段的分离设计,为后续基于PointNet++的接触预测网络训练以及Sim2Real部署奠定了数据基础。
当前挑战
ProcessedData数据集面临的核心挑战源于其所属的机器人抓取领域问题:从部分观测的3D物体重建中精确预测人类抓取接触点,并实现从仿真到现实的迁移。具体而言,当前数据集仅包含OakInk和DexYCB的100个与20个物体,缺乏HO3D-v3和ARCTIC等复杂场景数据,限制了对多形态物体和动态交互的泛化能力。构建过程中,多阶段流水线(深度处理、触觉映射、手部对齐)累积的误差可能影响接触先验的准确性,而数据标注依赖有限的人类示教,未包含机器人真实抓取验证。此外,点云采样密度为4096点,可能不足以捕获细粒度几何特征,且力中心计算基于人工设定的第80百分位数阈值,缺乏自适应策略。数据噪声来源(如SAM3D重建误差、高斯平滑对接触边界的模糊作用)也尚未被充分建模,这些因素共同构成了数据集可用性与鲁棒性的关键瓶颈。
常用场景
经典使用场景
ProcessedData数据集作为Affordance2Grasp流水线的第一阶段输出,为机器人抓取研究提供了标准化的接触预测训练数据。该数据集由OakInk与DexYCB两个经典操作数据集衍生而来,每个物体以4096点云采样、法向量与人类接触先验概率的形式存储。经典使用场景是将training_fp目录下的HDF5文件输入PointNet++模型,训练网络从几何特征中预测物体表面各点的抓取适宜性。研究人员可在此框架下探索接触概率分布与物体局部形状之间的关系,推动从人类示教到机器人自主抓取的迁移学习。
衍生相关工作
围绕ProcessedData的数据结构与下游任务,衍生出多项经典工作。最直接的工作包括训练应用于OakInk与DexYCB物体集的PointNet++接触预测模型,以及基于预测接触区域进行的物理仿真抓取评估。此外,human_prior_fp的设计启发了跨数据集物体检索与零样本抓取规划的研究,使得未参与训练的物体也能通过几何相似性获得合理的接触先验。该数据集的开放还推动了Affordance2Grasp流水线的对比基准建设,为后续融入HO3D-v3与ARCTIC等多点接触数据集的技术演进奠定了基础。
数据集最近研究
最新研究方向
该数据集服务于具身智能领域中的灵巧抓取任务,最新研究聚焦于将人类触觉先验与机器人操作策略深度融合。通过构建基于SAM3D重建的物体网格表面点云及接触概率分布,研究者得以在PointNet++架构中训练接触预测网络,实现抓取姿态的语义级引导。其核心创新在于利用高斯平滑化与最大归一化处理人类演示数据,生成兼具泛化性与物理合理性的先验概率场。该方向与2025年具身智能体在非结构化环境中的灵巧操作热点紧密关联,为从单物体抓取向多模态场景迁移提供了标准化数据基座,同时其HDF5格式的轻量化设计显著降低了下游推理阶段的检索成本,有望推动机器人对未知物体的零样本抓取能力突破。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作