3D-PC

github2024-06-14 更新2024-06-21 收录

下载链接：

https://github.com/serre-lab/VPT

下载链接

链接失效反馈

官方服务：

资源简介：

3D-PC数据集用于比较人类和深度神经网络在三维场景分析能力上的差异，包含三个任务：VPT-basic、VPT-strategy和depth order。

The 3D-PC dataset is designed to compare the differences in 3D scene analysis capabilities between humans and deep neural networks. It includes three tasks: VPT-basic, VPT-strategy, and depth order.

创建时间：

2024-05-31

原始信息汇总

数据集概述

数据集名称

3D-PC

数据集内容

任务类型：包含三个任务，分别是VPT-basic（基本视觉视角任务）、VPT-strategy（策略性视觉视角任务）和depth order（深度排序）。
数据组织：
- 训练集：包含所有训练图像，按类别组织。结构如下：
  
  train | |<category> | |<object> | |<setting> | |<*.png>
  
  对应的标签文件为train_perspective.csv和depth_perspective.csv，以及平衡版本的train_perspective_balanced.csv和depth_perspective_balanced.csv。
- 测试集：包含所有数据分割，用于VPT和depth order任务。结构如下：
  
  perspective/depth | |<split> | |<category> 0/1 | |_<*.png>

数据集访问

Hugging Face：提供所有三个任务的数据。 python from datasets import load_dataset dataset = load_dataset("pzhou10/3D-PC", "vpt-basic")
完整数据集下载：提供完整的3D-PC数据集及训练和测试数据分割。
- 下载链接：https://connectomics.clps.brown.edu/tf_records/VPT/

数据集使用

TIMM评估：
- 线性探针：
  
  python run_linear_probe.py --task <task> --data_dir <data_folder>/<task>/ --model_name <model_name>
- 微调：
  
  python run_finetune.py --task <task> --data_dir <data_folder>/<task>/ --model_name <model_name>

引用信息

@misc{linsley20243dpc, title={The 3D-PC: a benchmark for visual perspective taking in humans and machines}, author={Drew Linsley and Peisen Zhou and Alekh Karkada Ashok and Akash Nagaraj and Gaurav Gaonkar and Francis E Lewis and Zygmunt Pizlo and Thomas Serre}, year={2024}, eprint={2406.04138}, archivePrefix={arXiv}, primaryClass={cs.CV} }

搜集汇总

数据集介绍

构建方式

在构建3D-PC数据集时，研究团队精心设计了三个关键任务：深度顺序分析、基础视觉视角任务（VPT-basic）以及策略限制的视觉视角任务（VPT-strategy）。这些任务均基于自然场景图像，旨在评估人类和深度神经网络（DNNs）在三维场景分析中的表现。数据集的构建过程包括对超过30名人类参与者和300多个DNNs进行测试，通过线性探针或文本提示来评估其在不同3D分析任务中的表现。此外，数据集还提供了平衡的正负样本，以确保训练和测试的公正性。

特点

3D-PC数据集的显著特点在于其多任务设计，涵盖了从基础到复杂的视觉视角任务，旨在全面评估模型在三维场景理解中的能力。数据集不仅提供了丰富的图像数据，还包含了详细的标签信息，如视角和深度顺序，便于进行深入的分析和模型训练。此外，数据集的平衡设计确保了正负样本的均衡分布，减少了因样本不均导致的偏差。

使用方法

使用3D-PC数据集时，用户可以通过Hugging Face平台直接加载数据，选择特定的配置（如vpt-basic、vpt-strategy或depth）进行任务训练。对于更高级的用户，数据集还提供了完整的下载选项，包括训练和测试数据的分区。用户可以通过提供的Python脚本进行线性探针或微调TIMM模型，具体操作包括指定任务类型、数据目录和模型名称。这些脚本简化了模型评估和训练的过程，使得研究人员能够快速上手并进行深入的实验。

背景与挑战

背景概述

3D-PC数据集由布朗大学的Carney Institute for Brain Science和加州大学欧文分校的认知科学系联合开发，旨在探索人类与深度神经网络在三维场景分析中的能力差异。该数据集的核心研究问题聚焦于视觉视角转换（VPT），即人类如何准确感知和推理他人的视角。通过对比人类与深度神经网络在处理物体深度顺序、基本VPT任务及其挑战性版本上的表现，研究团队揭示了当前深度学习模型在复杂三维场景理解中的局限性。这一研究不仅深化了对人类智能的理解，也为开发更高效的三维场景分析算法提供了宝贵的数据资源。

当前挑战

3D-PC数据集面临的挑战主要集中在两个方面。首先，尽管深度神经网络在物体深度顺序分析上表现出色，但在基本VPT任务上与人类存在显著差距，表明现有模型在复杂视角推理上的不足。其次，数据集构建过程中，如何设计有效的任务以区分人类与机器的视角转换能力，以及如何平衡正负样本以确保训练数据的代表性，都是亟待解决的问题。此外，如何通过数据集推动深度学习模型在三维场景理解上的进一步发展，也是该数据集未来需要面对的重要挑战。

常用场景

经典使用场景

在计算机视觉领域，3D-PC数据集被广泛用于评估和提升深度神经网络（DNNs）在三维场景分析中的能力。该数据集特别适用于研究视觉视角转换（VPT）任务，包括基本的VPT任务（VPT-basic）和更具挑战性的VPT任务（VPT-perturbation）。通过这些任务，研究者可以深入探讨DNNs在理解和模拟人类视角转换能力方面的表现，从而推动机器视觉系统在复杂场景中的应用。

实际应用

在实际应用中，3D-PC数据集为开发更智能的机器人视觉系统和增强现实（AR）应用提供了关键支持。通过训练和测试DNNs在三维场景中的表现，该数据集有助于提升机器在复杂环境中的导航和交互能力。此外，它还支持开发更精确的虚拟现实（VR）体验，通过模拟真实世界的视角转换，使用户体验更加沉浸和自然。

衍生相关工作

基于3D-PC数据集，研究者们开展了一系列相关工作，包括改进DNNs在三维场景分析中的性能和提升其在视觉视角转换任务中的表现。例如，一些研究通过微调DNNs在VPT-basic任务上的表现，使其接近人类水平，但同时也揭示了DNNs在处理VPT-perturbation任务时的局限性。这些研究不仅推动了DNNs在三维视觉任务中的应用，也为理解人类视觉系统的复杂性提供了新的视角。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集