BOP: Benchmark 6D Object Pose Estimation|计算机视觉数据集|物体姿态估计数据集
收藏数据集概述
对象姿态估计数据集
本仓库汇总了用于对象姿态估计的数据集以及用于生成合成训练数据的渲染方法。数据集包括在受控环境和野外环境中的对象,以及3D模型数据集。
受控环境中的对象
数据集 | 样本图像 | 注释 | 统计 | 参考文献 |
---|---|---|---|---|
HomebrewedDB | ![]() |
6D姿态 + 深度 + 边界框 | 33模型,13视频,17,420帧 | Preprint 2019 |
YCB-Video | ![]() |
6D姿态 + 深度 + 掩码 | 21模型,92视频,133,827帧 | RSS 2018 |
T-LESS | ![]() |
6D姿态 + 深度 | 30模型,20视频,约49K帧 | WACV 2017 |
Doumanoglou | ![]() |
6D姿态 + 深度 | 2模型,3视频,183帧 | CVPR 2016 |
Tejani | ![]() |
6D姿态 + 深度 | 6模型,6视频,2,067帧 | ECCV 2014 |
Occluded-LINEMOD | ![]() |
6D姿态 + 深度 | 8模型,1,214帧,8,992对象 | ECCV 2014 |
LINEMOD | ![]() |
6D姿态 + 深度 | 15模型,15视频,18,273帧 | ACCV 2012 |
野外环境中的对象
- Pix3D 和 ScanNet 提供精确的2D-3D对齐,而其他数据集仅提供粗略对齐。
数据集 | 样本图像 | 注释 | 统计 | 参考文献 |
---|---|---|---|---|
ApolloCar3D | ![]() |
6D姿态 + 掩码 | 34车模型,60K+对象,5,277图像 | CVPR 2019 |
Pix3D | ![]() |
6D姿态 + 掩码 | 9类别,395模型,10,069图像 | CVPR 2018 |
ScanNet | ![]() |
6D姿态 + 分割 + 深度 | 2.5M RGB-D帧,1,515场景 | CVPR 2017 |
ObjectNet3D | ![]() |
欧拉角 + 边界框 | 100类别,201,888对象,90,127图像 | ECCV 2016 |
PASCAL3D+ | ![]() |
欧拉角 + 边界框 | 12类别,36,292对象,30,889图像 | WACV 2014 |
KITTI | ![]() |
3D边界框 | 80,256对象,14,999图像 | CVPR 2012 |
3D模型数据集
- 用于测试网络泛化能力(在包含训练集中未见的3D模型的图像上进行测试)。
数据集 | 类别 | 模型总数 | 参考文献 |
---|---|---|---|
ABC | - | 1百万 | CVPR 2019 |
ShapeNetCore | 55 | 约51,300 | ArXiv 2015 |
ModelNet-40 | 40 | 26,960 | CVPR 2015 |
渲染方法
- Differentiable Renderer:如Neural 3D Mesh Renderer和RenderNet。
- Blender Render:提供Python代码,使用Blender作为Python模块生成渲染图像。
- Physical Simulator:如PyBullet。
- Others:如Glumpy和UnrealCV。

LFW
人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download
AI_Studio 收录
Google Scholar
Google Scholar是一个学术搜索引擎,旨在检索学术文献、论文、书籍、摘要和文章等。它涵盖了广泛的学科领域,包括自然科学、社会科学、艺术和人文学科。用户可以通过关键词搜索、作者姓名、出版物名称等方式查找相关学术资源。
scholar.google.com 收录
UCI Machine Learning Repository
UCI机器学习库是一个包含数据库、领域理论和数据生成器的集合,这些被机器学习社区用于机器学习算法的实证分析。
github 收录
Materials Project
材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)
OpenDataLab 收录
MultiTalk
MultiTalk数据集是由韩国科学技术院创建,包含超过420小时的2D视频,涵盖20种不同语言,旨在解决多语言环境下3D说话头生成的问题。该数据集通过自动化管道从YouTube收集,每段视频都配有语言标签和伪转录,部分视频还包含伪3D网格顶点。数据集的创建过程包括视频收集、主动说话者验证和正面人脸验证,确保数据质量。MultiTalk数据集的应用领域主要集中在提升多语言3D说话头生成的准确性和表现力,通过引入语言特定风格嵌入,使模型能够捕捉每种语言独特的嘴部运动。
arXiv 收录