five

BOP: Benchmark 6D Object Pose Estimation|计算机视觉数据集|物体姿态估计数据集

收藏
github2024-02-22 更新2024-05-31 收录
计算机视觉
物体姿态估计
下载链接:
https://github.com/hz-ants/ObjectPoseEstimationDatasets
下载链接
链接失效反馈
资源简介:
该数据集提供了精确的3D物体模型和精确的2D-3D对齐,用于6D物体姿态估计的基准测试。

This dataset provides precise 3D object models and accurate 2D-3D alignments, serving as a benchmark for 6D object pose estimation.
创建时间:
2019-08-28
原始信息汇总

数据集概述

对象姿态估计数据集

本仓库汇总了用于对象姿态估计的数据集以及用于生成合成训练数据的渲染方法。数据集包括在受控环境和野外环境中的对象,以及3D模型数据集。

受控环境中的对象

  • BOP: Benchmark 6D Object Pose Estimation:提供精确的3D对象模型和精确的2D-3D对齐。可从此处下载所有BOP数据集,并使用提供的工具包
数据集 样本图像 注释 统计 参考文献
HomebrewedDB 6D姿态 + 深度 + 边界框 33模型,13视频,17,420帧 Preprint 2019
YCB-Video 6D姿态 + 深度 + 掩码 21模型,92视频,133,827帧 RSS 2018
T-LESS 6D姿态 + 深度 30模型,20视频,约49K帧 WACV 2017
Doumanoglou 6D姿态 + 深度 2模型,3视频,183帧 CVPR 2016
Tejani 6D姿态 + 深度 6模型,6视频,2,067帧 ECCV 2014
Occluded-LINEMOD 6D姿态 + 深度 8模型,1,214帧,8,992对象 ECCV 2014
LINEMOD 6D姿态 + 深度 15模型,15视频,18,273帧 ACCV 2012

野外环境中的对象

  • Pix3DScanNet 提供精确的2D-3D对齐,而其他数据集仅提供粗略对齐。
数据集 样本图像 注释 统计 参考文献
ApolloCar3D 6D姿态 + 掩码 34车模型,60K+对象,5,277图像 CVPR 2019
Pix3D 6D姿态 + 掩码 9类别,395模型,10,069图像 CVPR 2018
ScanNet 6D姿态 + 分割 + 深度 2.5M RGB-D帧,1,515场景 CVPR 2017
ObjectNet3D 欧拉角 + 边界框 100类别,201,888对象,90,127图像 ECCV 2016
PASCAL3D+ 欧拉角 + 边界框 12类别,36,292对象,30,889图像 WACV 2014
KITTI 3D边界框 80,256对象,14,999图像 CVPR 2012

3D模型数据集

  • 用于测试网络泛化能力(在包含训练集中未见的3D模型的图像上进行测试)。
数据集 类别 模型总数 参考文献
ABC - 1百万 CVPR 2019
ShapeNetCore 55 约51,300 ArXiv 2015
ModelNet-40 40 26,960 CVPR 2015

渲染方法

AI搜集汇总
数据集介绍
main_image_url
构建方式
BOP数据集是为6D物体姿态估计而设计的基准数据集,其构建过程主要依赖于精确的3D物体模型和2D-3D对齐技术。数据集中的每个物体都通过3D CAD模型进行建模,并在受控环境中进行拍摄,以确保2D图像与3D模型之间的精确对齐。数据集的生成还涉及使用Blender等渲染工具,通过模拟不同光照、纹理和相机姿态来生成多样化的合成图像。此外,数据集还提供了详细的标注信息,包括6D姿态、深度信息和边界框等,以支持复杂的姿态估计任务。
特点
BOP数据集的特点在于其多样性和精确性。数据集涵盖了多个子集,如HomebrewedDB、YCB-Video和T-LESS等,每个子集都包含大量的3D模型和对应的2D图像。这些图像在受控环境中拍摄,确保了2D-3D对齐的精确性。此外,数据集还提供了丰富的标注信息,包括6D姿态、深度图和物体掩码,为姿态估计任务提供了全面的支持。数据集的设计还考虑了模型的泛化能力,通过引入未见过的3D模型来测试算法的鲁棒性。
使用方法
使用BOP数据集时,首先需要从官方网站下载数据集,并利用提供的工具包进行数据处理。数据集中的3D模型通常以.ply格式存储,可以通过提供的脚本将其转换为.obj格式。随后,用户可以使用标注生成脚本为每个场景创建统一的标注文件。数据集的格式详细说明了如何通过实例ID来区分同一图像中的不同物体。此外,用户还可以利用Blender等渲染工具生成合成图像,以扩展训练数据的多样性。通过这些步骤,用户可以高效地利用BOP数据集进行6D物体姿态估计的研究和开发。
背景与挑战
背景概述
BOP(Benchmark 6D Object Pose Estimation)数据集是计算机视觉领域中用于6D物体姿态估计的重要基准数据集。该数据集由捷克技术大学的研究团队于2017年首次发布,旨在为6D物体姿态估计任务提供高质量的3D模型和精确的2D-3D对齐数据。BOP数据集涵盖了多个子数据集,如HomebrewedDB、YCB-Video、T-LESS等,每个子数据集都提供了丰富的物体模型和场景数据。这些数据集在6D姿态估计、物体识别和机器人抓取等领域具有广泛的应用,推动了相关算法的研究和性能提升。BOP数据集的出现为学术界和工业界提供了一个统一的评估平台,促进了6D姿态估计技术的快速发展。
当前挑战
BOP数据集在解决6D物体姿态估计问题时面临多重挑战。首先,6D姿态估计任务本身具有较高的复杂性,尤其是在物体遮挡、光照变化和背景干扰等复杂场景下,算法的鲁棒性和准确性难以保证。其次,数据集的构建过程中,如何确保3D模型与2D图像之间的精确对齐是一个技术难点,尤其是在大规模数据采集和标注过程中,保持数据的一致性和准确性尤为困难。此外,数据集的多样性和泛化能力也是构建过程中的一大挑战,如何涵盖不同类别、不同形状的物体,并确保其在各种场景下的适用性,是数据集设计时需要重点考虑的问题。这些挑战不仅影响了数据集的构建质量,也对后续算法的开发和评估提出了更高的要求。
常用场景
经典使用场景
BOP数据集在6D物体姿态估计领域中被广泛使用,特别是在计算机视觉和机器人技术的研究中。该数据集提供了精确的3D物体模型和2D-3D对齐信息,使得研究人员能够在受控环境中进行物体姿态估计的实验和验证。通过使用BOP数据集,研究者可以评估和比较不同算法在复杂场景下的性能,尤其是在物体遮挡和光照变化等挑战性条件下的表现。
解决学术问题
BOP数据集解决了6D物体姿态估计中的多个关键学术问题,包括物体在复杂背景下的精确定位、姿态估计的鲁棒性以及多物体场景下的姿态估计。通过提供高质量的标注数据和多样化的场景,BOP数据集为研究者提供了一个标准化的基准,推动了6D姿态估计算法的创新和优化。该数据集的出现显著提升了物体姿态估计的精度和效率,为后续研究奠定了坚实的基础。
衍生相关工作
BOP数据集衍生了许多经典的研究工作,特别是在6D物体姿态估计和计算机视觉领域。例如,基于BOP数据集的研究提出了多种新颖的姿态估计算法,如基于深度学习的端到端姿态估计模型和基于几何优化的姿态估计方法。这些工作不仅推动了6D姿态估计技术的发展,还为其他相关领域的研究提供了重要的参考和启发。此外,BOP数据集还促进了多模态数据融合和跨领域合作,进一步拓展了其应用范围。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

Google Scholar

Google Scholar是一个学术搜索引擎,旨在检索学术文献、论文、书籍、摘要和文章等。它涵盖了广泛的学科领域,包括自然科学、社会科学、艺术和人文学科。用户可以通过关键词搜索、作者姓名、出版物名称等方式查找相关学术资源。

scholar.google.com 收录

UCI Machine Learning Repository

UCI机器学习库是一个包含数据库、领域理论和数据生成器的集合,这些被机器学习社区用于机器学习算法的实证分析。

github 收录

Materials Project

材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)

OpenDataLab 收录

MultiTalk

MultiTalk数据集是由韩国科学技术院创建,包含超过420小时的2D视频,涵盖20种不同语言,旨在解决多语言环境下3D说话头生成的问题。该数据集通过自动化管道从YouTube收集,每段视频都配有语言标签和伪转录,部分视频还包含伪3D网格顶点。数据集的创建过程包括视频收集、主动说话者验证和正面人脸验证,确保数据质量。MultiTalk数据集的应用领域主要集中在提升多语言3D说话头生成的准确性和表现力,通过引入语言特定风格嵌入,使模型能够捕捉每种语言独特的嘴部运动。

arXiv 收录