zeredata/bin-picking

Name: zeredata/bin-picking
Creator: zeredata
Published: 2026-04-30 19:54:51
License: 暂无描述

Hugging Face2026-04-30 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/zeredata/bin-picking

下载链接

链接失效反馈

官方服务：

资源简介：

ZereData Bin Picking Dataset v1.1是一个用于机器人仓库存取任务的合成训练数据集，包含RGB图像、深度图、实例分割掩码、6D姿态、2D边界框以及每个实例的可见性信息。数据集通过Blender Cycles的物理基础光线追踪生成，提供了密集、逼真的仓库杂乱箱子场景。每个场景包含RGB图像、32位深度图、实例分割、相机内外参以及每个实例的6D姿态和可见性比例。数据集支持BOP、COCO和YOLO格式，适用于训练6D姿态估计器、仓库存取抓取预测器和仓库感知系统。数据集包含10,000个场景，其中8,000个用于训练，2,000个用于验证，总大小为14.8GB。

ZereData Bin Picking Dataset v1.1 is a synthetic training dataset for robotic bin picking tasks, containing RGB images, depth maps, instance masks, 6D poses, 2D bounding boxes, and per-instance visibility information. The dataset is generated via physically-based ray tracing in Blender Cycles, delivering dense, photorealistic scenes of cluttered bins at warehouse scale. Each scene includes RGB, 32-bit depth, instance segmentation, camera intrinsics/extrinsics, and per-instance 6D pose with visibility ratios. The dataset supports BOP, COCO, and YOLO formats and is intended for training 6D pose estimators, bin-picking grasp predictors, and warehouse perception systems. The dataset consists of 10,000 scenes, with 8,000 for training and 2,000 for validation, totaling 14.8GB in size.

提供机构：

zeredata

搜集汇总

数据集介绍

构建方式

在机器人抓取领域的仿真数据生成中，物理精确的渲染技术扮演着关键角色。该数据集借助Blender Cycles引擎，基于物理的光线追踪技术，在仓库尺度下生成了高度逼真的杂乱料箱场景。共计10,000个场景，其中8,000个用于训练，2,000个用于验证，每个场景均以1280×720分辨率输出。数据集的标注过程完全自动化，通过模拟相机内参和外参，为每个物体实例精确计算了6D位姿、可见性比例，并导出了实例分割掩码与2D边界框。这种全合成的构建方式规避了真实数据采集中的标注难题，实现了大规模、低成本且标注无误的生成。

使用方法

研究人员可根据具体任务灵活选用数据格式和拆分。对于6D位姿估计训练，推荐使用BOP格式，可构建一个简单的PyTorch数据集类，在读取场景目录后加载RGB图像及对应的scene_camera.json和scene_gt.json文件。若专注于目标检测或实例分割，可直接加载解压后的COCO注释文件，利用pycocotools库快速获取图像ID、边界框和类别信息。YOLO格式的标签文件则适用于YOLO系列模型的训练。数据集支持通过Hugging Face Hub按需下载特定格式的压缩包，所有压缩包解压至同一目录后即可形成完整的文件树，操作便捷高效。

背景与挑战

背景概述

ZereData Bin Picking Dataset v1.1 由 Umit Kavala 及其团队于2026年创建，旨在解决机器人仓储领域中杂乱料箱抓取任务的感知核心问题——高精度6D位姿估计。该数据集依托Blender Cycles物理光线追踪渲染技术，生成10,000个高保真场景，覆盖RGB、深度、实例分割、6D位姿及可见性比率等多模态标注，并以BOP、COCO、YOLO格式发布，为训练位姿估计与抓取模型提供了大规模、低成本的合成数据方案。其引入的合成数据驱动范式，显著降低了对昂贵人工标注的依赖，成为连接仿真训练与真实部署的关键桥梁，对仓储自动化与机器人视觉领域产生了深远影响。

当前挑战

该数据集所解决的领域挑战在于：真实料箱环境中物体密集堆叠、相互遮挡且光照复杂，导致传统基于真实数据的6D位姿估计方法标注成本极高且难以规模化，限制了机器人抓取系统的泛化能力。构建过程中面临的核心挑战包括：一是合成场景光照需严格模拟仓库实际环境（如荧光顶灯、混合光源），以确保仿真到真实（sim-to-real）的迁移效果；二是采用程序化纹理而非摄影扫描材质，导致高频细节可能显得不够真实；三是BOP坐标转换约定采用OpenGL规范而非OpenCV标准，需下游用户手动修正；四是相机内参矩阵为合成值，缺乏真实传感器标定数据支持，可能影响模型在真实设备上的适配精度。

常用场景

经典使用场景

在机器人抓取与仓储自动化领域，精确的物体抓取姿态估计是核心挑战之一。ZereData Bin Picking Dataset v1.1为这一经典问题提供了大规模、高保真的合成训练数据。该数据集通过物理渲染引擎生成10,000个杂乱货箱场景，包含RGB图像、深度图、实例分割掩码、6D位姿、二维边界框及可见性比率等多模态标注。其典型使用场景是训练基于深度学习的6D姿态估计模型，如用于机器人从杂乱料箱中拾取已知类别物体（瓶子、盒子、罐子、软包）的抓取规划系统。研究者可借助该数据集构建与BOP、COCO、YOLO等主流格式兼容的检测与分割网络，并通过合成数据驱动的方式替代昂贵且耗时的人工标注流程，显著提升姿势估计模型在真实工业场景中的泛化能力。

解决学术问题

该数据集系统地解决了计算机视觉与机器人领域中的几个关键学术难题。其一，它突破了真实场景标注困难且成本高昂的瓶颈，通过合成渲染提供完美的像素级标注，使得研究者能够训练深度神经网络来精确估计物体在杂乱堆叠环境中的六自由度姿态。其二，它促进了sim-to-real迁移学习的研究，使得在合成数据上训练的模型能够有效适应真实仓库的复杂光照、遮挡与材质变化。其三，通过提供每个实例的可见性比率和遮挡信息，该数据集为研究部分遮挡条件下的鲁棒性姿态估计提供了量化训练监督。其学术意义在于揭示了大规模合成数据在填补现实世界数据稀缺性方面的潜力，推动了机器人抓取、自动化分拣和智能仓储等方向从实验室研究向工业部署的转变。

实际应用

在实际工业物流与智能制造场景中，该数据集的应用价值尤为突出。它常被用于训练电商物流中心中自动分拣机器人的视觉感知模块，使得机器人能够从装有随机堆叠的瓶装、盒装或袋装商品的料箱中准确识别并抓取目标物体。具体而言，基于该数据集训练的6D姿态估计系统可以被部署到自主移动操作平台上，支持仓库的无人化理货与订单拣选流程。此外，数据集的合成渲染特性允许企业定制其专属商品库，通过修改物体CAD模型和货箱布局快速生成适配特定生产线的新数据集，从而加速部署自动化码垛与拆垛系统。这种从虚拟到现实的低成本数据供给链，直接降低了物流自动化的技术门槛与迭代周期。

数据集最近研究