mikewang/padv2

Name: mikewang/padv2
Creator: mikewang
Published: 2023-08-24 18:30:04
License: 暂无描述

Hugging Face2023-08-24 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/mikewang/padv2

下载链接

链接失效反馈

官方服务：

资源简介：

--- pretty_name: 'Padv2 Dataset - Part1' language: - en --- # Dataset Card for Padv2 Part1 ## Dataset Description **Official Repo:** https://github.com/lhc1224/OSAD_Net#-dataset-; **IMPORTANT Notes**: - This Huggingface dataset loads the Part1 of the Padv2 dataset, i.e., the PADv2_part1.zip; The file can also be downloaded from: https://uofi.box.com/s/1atjh3d2p82qyxm3gp11514006va0llq - Each instance in the loaded HF dataset contains the following fields: - `image_uid`: unique id to a dataset instanec - `image_path`: path to the raw rgb image - `depth_path`: path to the depth annotation of the image - `mask_path`: path to the object mask of the image - `affordance_type`: affordance type of the object in the image - `original_divisions`: there are three versions of divisions on the affordance types in the original dataset, this field stores the split ("train" or "test") of this instance in the three different divisions ("divide_1", "divide_2", "divide_3") **Paper Citation:** ``` @inproceedings{Oneluo, title={One-Shot Affordance Detection}, author={Hongchen Luo and Wei Zhai and Jing Zhang and Yang Cao and Dacheng Tao}, booktitle={IJCAI}, year={2021} } ``` ``` @article{luo2021one, title={One-Shot Object Affordance Detection in the Wild}, author={Zhai, Wei and Luo, Hongchen and Zhang, Jing and Cao, Yang and Tao, Dacheng}, journal={arXiv preprint arXiv:2108.03658}, year={2021} } ``` ## Dataset Summary With complex scenes and rich annotations, the PADv2 dataset can be used as a test bed to benchmark affordance detection methods and may also facilitate downstream vision tasks, such as scene understanding, action recognition, and robot manipulation. It contains 30k diverse images covering 39 affordance categories as well as 103 object categories from different scenes.

提供机构：

mikewang

原始信息汇总

数据集卡片 for Padv2 Part1

数据集描述

官方仓库: https://github.com/lhc1224/OSAD_Net#-dataset-;

重要说明:

此Huggingface数据集加载Padv2数据集的Part1部分，即PADv2_part1.zip；该文件也可以从以下链接下载：https://uofi.box.com/s/1atjh3d2p82qyxm3gp11514006va0llq
加载的HF数据集中的每个实例包含以下字段：
- image_uid: 数据集实例的唯一ID
- image_path: 原始RGB图像的路径
- depth_path: 图像深度注释的路径
- mask_path: 图像对象掩码的路径
- affordance_type: 图像中对象的功能类型
- original_divisions: 原始数据集中有三种不同的功能类型划分，此字段存储该实例在三种不同划分（"divide_1", "divide_2", "divide_3"）中的划分（"train" 或 "test"）

论文引用:

@inproceedings{Oneluo, title={One-Shot Affordance Detection}, author={Hongchen Luo and Wei Zhai and Jing Zhang and Yang Cao and Dacheng Tao}, booktitle={IJCAI}, year={2021} }

@article{luo2021one, title={One-Shot Object Affordance Detection in the Wild}, author={Zhai, Wei and Luo, Hongchen and Zhang, Jing and Cao, Yang and Tao, Dacheng}, journal={arXiv preprint arXiv:2108.03658}, year={2021} }

数据集概述

PADv2数据集包含复杂的场景和丰富的注释，可作为基准测试功能检测方法的试验台，并可能促进下游视觉任务，如场景理解、动作识别和机器人操作。

它包含30k张多样化的图像，涵盖39种功能类别以及来自不同场景的103种对象类别。

搜集汇总

数据集介绍

构建方式

在计算机视觉领域，构建高质量的数据集对于推动物体功能感知研究至关重要。PADv2数据集的构建过程体现了严谨的科学方法，其第一部分（Part1）通过系统采集和标注完成。该数据集涵盖了30,000张多样化图像，这些图像源自复杂真实场景，确保了数据的广泛代表性。每张图像均配备了RGB图像、深度注释和物体掩码路径，同时标注了物体的功能类型及三种不同的划分版本（divide_1、divide_2、divide_3），这些划分分别用于训练和测试集，以支持多种评估场景。数据集的构建注重多模态信息的整合，为后续研究提供了坚实的基础。

特点

PADv2数据集以其丰富的标注和广泛的覆盖范围脱颖而出，成为功能检测领域的重要基准。该数据集包含39种功能类别和103种物体类别，覆盖了从日常物品到复杂场景的多样实例，确保了数据的全面性和挑战性。每个实例均提供图像唯一标识、原始RGB图像路径、深度注释路径、物体掩码路径以及功能类型，这种多模态标注结构便于研究者进行跨模态分析。此外，数据集提供了三种不同的划分方案，增强了其在一次性学习等任务中的灵活性和可重复性，为场景理解、动作识别和机器人操作等下游任务提供了有力支持。

使用方法

使用PADv2数据集时，研究者可通过HuggingFace平台直接加载Part1部分，或从官方存储库下载原始文件。数据集中的每个实例包含多个字段：`image_uid`用于唯一标识，`image_path`、`depth_path`和`mask_path`分别指向RGB图像、深度注释和物体掩码文件，`affordance_type`标注物体的功能类别，而`original_divisions`则提供了三种划分版本下的训练或测试集归属。用户可根据研究需求选择特定划分，例如在一次性功能检测任务中，利用深度和掩码信息进行多模态模型训练。数据集的标准化格式确保了与现有计算机视觉框架的兼容性，便于快速集成和实验复现。

背景与挑战

背景概述

在计算机视觉领域，物体功能性检测旨在识别物体支持人类交互的潜在能力，这一研究方向对于推动机器人操作与场景理解至关重要。PADv2数据集由香港中文大学等机构的研究团队于2021年创建，其核心目标是为一次性功能性检测提供基准测试平台。该数据集涵盖了30,000张多样化图像，包含39种功能性类别与103种物体类别，通过深度注释与物体掩码的丰富标注，显著提升了模型在复杂真实场景中的泛化能力，对机器人视觉与人工智能交互研究产生了深远影响。

当前挑战

PADv2数据集致力于解决一次性物体功能性检测的挑战，即在仅提供少量示例的情况下，准确识别未知物体在多变环境中的交互功能。这一任务面临物体类别多样性、场景复杂性以及功能性标注主观性等多重困难。在数据集构建过程中，研究人员需克服大规模图像采集与精细标注的协调难题，确保深度信息、物体掩码与功能性类型之间的一致性，同时维护不同数据划分版本的逻辑完整性，以支持稳健的模型评估与比较。

常用场景

经典使用场景

在计算机视觉领域，物体功能检测是理解场景中物体交互潜力的关键任务。PADv2数据集以其丰富的标注和多样化的场景，成为评估一次性功能检测方法的经典基准。研究者利用该数据集训练和验证模型，以实现在仅需少量示例的情况下，准确识别图像中物体的潜在功能，如“可坐”、“可抓握”等，从而推动视觉感知技术的边界。

衍生相关工作

基于PADv2数据集，多项经典研究工作得以衍生，如一次性功能检测网络的提出与优化。这些工作探索了如何利用少量标注实现高效检测，并扩展至多任务学习框架。相关研究不仅改进了检测精度，还促进了场景理解、动作识别等下游任务的进展，形成了从数据到算法的良性循环，为计算机视觉社区贡献了宝贵的理论与实践经验。

数据集最近研究