five

Omni6D|6D物体姿态估计数据集|计算机视觉数据集

收藏
github2024-10-01 更新2024-10-02 收录
6D物体姿态估计
计算机视觉
下载链接:
https://github.com/3DTopia/Omni6D
下载链接
链接失效反馈
资源简介:
Omni6D是一个用于类别级6D物体姿态估计的大型词汇3D物体数据集,包含多个版本的更新,提供了详细的下载和使用说明。
创建时间:
2024-09-18
原始信息汇总

Omni6D: Large-Vocabulary 3D Object Dataset for Category-Level 6D Object Pose Estimation

数据集概述

Omni6D 是一个用于类别级6D物体姿态估计的大词汇量3D物体数据集。该数据集包含多个版本,包括 Omni6D、Omni6D-xl 和 Omni6D-Real。

更新记录

  • 2024年7月:发布 Omni6D 数据集。
  • 2024年9月:发布 Omni6D-xl 和 Omni6D-Real 数据集。

数据集下载

  1. 注册并登录 OpenDataLab

  2. 安装 OpenDataLab 的 CLI 工具:pip install openxlab

  3. 使用以下命令下载数据集: bash openxlab login # 登录,输入 AK/SK openxlab dataset info --dataset-repo kszpxxzmcwww/Omni6D # 查看数据集信息 openxlab dataset ls --dataset-repo kszpxxzmcwww/Omni6D # 查看数据集文件列表 openxlab dataset get --dataset-repo kszpxxzmcwww/Omni6D # 下载整个数据集(压缩文件约需388.9GB存储空间)

  4. 如果遇到 401: {"msg":"login required"} 错误,请使用以下 AK/SK:

    AK: bmyqk5wpbaxl6x1vkzq9 SK: nl7kq9palyr6j3pwxolden7ezq4dwjmbgdm81yeo

  5. 可以通过指定路径下载部分数据: bash openxlab dataset download --dataset-repo kszpxxzmcwww/Omni6D --source-path /raw/Omni6D_V1/CAMERA/test --target-path <your-target-path>

数据集格式

Omni6D(-xl) 数据集结构

Omni6D(-xl) ├── info │ ├── sym_info.csv │ ├── <train/val/test/test_unseen>list.txt ├── shape_data │ ├── camera<train/val/test/test_unseen>.pkl │ ├── ShapeNetCore_<2048/4096>.h5 │ ├── ShapeNetCore_unseen_<2048/4096>.h5 │ ├── mean_embedding.npy │ ├── mean_points_emb.npy ├── CAMERA │ ├── <train/val/test/test_unseen> │ │ ├── <scene_id> │ │ │ ├── <render_id>_color.png │ │ │ ├── <render_id>_depth.png │ │ │ ├── <render_id>_coord.png │ │ │ ├── <render_id>_mask.png │ │ │ ├── <render_id>_meta.txt │ │ │ ├── <render_id>_label.pkl

Omni6D_Real 数据集结构

Omni6D_Real │ ├── <scene_id> │ │ ├── <capture_id>_color.png │ │ ├── <capture_id>_depth.png │ │ ├── <capture_id>_mask.png │ │ ├── <capture_id>_mask.png │ │ ├── <capture_id>_label.pkl

基准测试

Omni6D 数据集上的类别级性能

方法 网络类型 $IoU_{50}$ $IoU_{75}$ $5^circ2cm$ $5^circ5cm$ $10^circ2cm$ $10^circ5cm$ $5^circ$ $10^circ$ $2cm$ $5cm$
SPD implicit 44.56 20.37 7.55 9.56 14.76 19.23 10.68 21.02 37.49 70.09
SGPA implicit 36.34 14.44 4.78 6.84 10.13 15.03 8.49 17.73 25.57 59.18
DualPoseNet hybrid 58.84 25.49 8.28 9.30 17.26 19.05 9.38 19.18 73.82 96.37
RBP-Pose hybrid 35.92 4.66 0.37 0.60 0.53 0.80 0.75 0.96 39.73 83.55
GPV-Pose explicit 15.28 0.26 0.10 0.70 0.14 0.96 2.25 2.96 5.31 33.70
HS-Pose explicit 62.65 23.02 4.26 4.85 10.49 11.61 4.96 11.75 80.93 97.78

Omni6D-xl 数据集上的类别级性能

方法 网络类型 $IoU_{50}$ $IoU_{75}$ $5^circ2cm$ $5^circ5cm$ $10^circ2cm$ $10^circ5cm$ $5^circ$ $10^circ$ $2cm$ $5cm$
SPD implicit 42.28 16.73 3.42 6.47 6.45 12.16 10.62 17.71 21.05 54.14
SGPA implicit 37.62 12.48 2.45 5.56 5.12 10.98 10.25 17.88 16.21 47.31
DualPoseNet hybrid 59.15 24.26 5.92 7.24 10.74 13.00 7.70 13.72 65.05 87.44
RBP-Pose hybrid 41.21 6.55 0.52 1.63 0.59 1.74 3.02 3.20 23.20 57.27
GPV-Pose explicit 17.01 1.42 0.51 1.90 0.55 2.07 5.08 5.72 5.19 26.32
HS-Pose explicit 62.92 26.50 4.98 6.26 8.81 10.73 6.65 11.39 71.68 89.38

许可证

OmniObject3D 数据集采用 CC BY 4.0 许可证。

引用

@misc{zhang2024omni6dlargevocabulary3dobject, title={Omni6D: Large-Vocabulary 3D Object Dataset for Category-Level 6D Object Pose Estimation}, author={Mengchen Zhang and Tong Wu and Tai Wang and Tengfei Wang and Ziwei Liu and Dahua Lin}, year={2024}, eprint={2409.18261}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2409.18261}, }

AI搜集汇总
数据集介绍
main_image_url
构建方式
Omni6D数据集的构建基于BlenderProc工具,通过模拟真实场景中的物体摆放和光照条件,生成大量具有丰富多样性的3D物体图像。数据集的构建过程中,首先安装并配置BlenderProc,然后根据指定的路径加载场景和物体模型。通过运行脚本,系统自动生成包含RGB图像、深度图、NOCS映射、实例掩码和标注信息的图像数据。此外,数据集还包含了从ShapeNetCore中采样的点云数据,用于进一步的分析和训练。
特点
Omni6D数据集以其大规模词汇量和多样化的3D物体模型著称,涵盖了从常见到罕见的各类物体。数据集不仅提供了高质量的渲染图像,还包括深度信息和实例掩码,为6D物体姿态估计提供了全面的数据支持。此外,数据集还特别设计了不同分辨率的点云数据,以适应不同精度的需求。Omni6D-xl和Omni6D-Real版本进一步扩展了数据集的规模和真实性,增强了其在实际应用中的适用性。
使用方法
使用Omni6D数据集时,用户首先需要通过OpenDataLab平台注册并下载数据集。安装OpenDataLab的CLI工具后,用户可以通过命令行界面查看和下载数据集的特定部分。数据集的文件结构清晰,用户可以根据需要选择下载训练、验证或测试数据。此外,数据集提供了详细的标注信息和点云数据,便于研究人员进行深度学习和计算机视觉任务的实验。
背景与挑战
背景概述
Omni6D数据集是由Mengchen Zhang、Tong Wu、Tai Wang、Tengfei Wang、Ziwei Liu和Dahua Lin等研究人员于2024年创建的,专注于大词汇量3D物体类别级别的6D物体姿态估计。该数据集的构建旨在解决在复杂场景中对大量不同类别物体进行精确姿态估计的挑战,特别是在机器人视觉和增强现实等领域具有广泛的应用前景。Omni6D的发布不仅丰富了现有的3D物体数据集资源,还为相关领域的研究提供了新的基准和评估标准,推动了计算机视觉技术的发展。
当前挑战
Omni6D数据集在构建过程中面临多项挑战。首先,数据集需要涵盖大量不同类别的3D物体,这对数据采集和标注提出了极高的要求。其次,为了确保数据集的多样性和代表性,研究人员必须处理不同光照条件、背景复杂度以及物体姿态变化带来的影响。此外,数据集的构建还涉及到大规模数据存储和高效数据处理技术,以应对海量数据的存储和访问需求。这些挑战不仅考验了研究团队的技术能力,也推动了相关技术的创新和发展。
常用场景
经典使用场景
Omni6D数据集在计算机视觉领域中被广泛用于类别级别的6D物体姿态估计。其经典使用场景包括训练深度学习模型以识别和定位图像中的三维物体,特别是在复杂背景和多物体场景下。通过提供大量标注的RGB图像、深度图和实例掩码,该数据集支持模型学习从二维图像中推断三维物体的空间位置和方向,从而实现高精度的姿态估计。
解决学术问题
Omni6D数据集解决了计算机视觉中类别级别6D物体姿态估计的学术难题。传统方法通常依赖于特定物体的先验知识,而Omni6D通过提供大规模、多样化的三维物体数据,使得模型能够在不依赖特定物体模型的情况下,泛化到不同类别的物体。这一突破不仅提升了姿态估计的准确性,还推动了相关领域的研究进展,如机器人视觉和增强现实。
衍生相关工作
Omni6D数据集的发布催生了多项相关研究工作,包括但不限于改进的姿态估计算法、多模态数据融合技术以及大规模数据集生成方法。例如,基于Omni6D的扩展版本Omni6D-xl和Omni6D-Real,研究者们进一步探索了真实场景下的姿态估计问题,推动了从合成数据到真实数据的无缝过渡研究。此外,Omni6D还激发了对三维物体表示和深度学习模型架构的深入研究。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

AgiBot World

为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。

github 收录

VQA

我们提出了自由形式和开放式视觉问答 (VQA) 的任务。给定图像和关于图像的自然语言问题,任务是提供准确的自然语言答案。反映许多现实世界的场景,例如帮助视障人士,问题和答案都是开放式的。视觉问题有选择地针对图像的不同区域,包括背景细节和底层上下文。因此,与生成通用图像说明的系统相比,在 VQA 上取得成功的系统通常需要对图像和复杂推理有更详细的理解。此外,VQA 适合自动评估,因为许多开放式答案仅包含几个单词或一组封闭的答案,可以以多项选择的形式提供。我们提供了一个数据集包含 100,000 的图像和问题并讨论它提供的信息。提供了许多 VQA 基线,并与人类表现进行了比较。

OpenDataLab 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

MultiTalk

MultiTalk数据集是由韩国科学技术院创建,包含超过420小时的2D视频,涵盖20种不同语言,旨在解决多语言环境下3D说话头生成的问题。该数据集通过自动化管道从YouTube收集,每段视频都配有语言标签和伪转录,部分视频还包含伪3D网格顶点。数据集的创建过程包括视频收集、主动说话者验证和正面人脸验证,确保数据质量。MultiTalk数据集的应用领域主要集中在提升多语言3D说话头生成的准确性和表现力,通过引入语言特定风格嵌入,使模型能够捕捉每种语言独特的嘴部运动。

arXiv 收录