five

3D-PC

收藏
github2024-06-14 更新2024-06-21 收录
下载链接:
https://github.com/serre-lab/VPT
下载链接
链接失效反馈
官方服务:
资源简介:
3D-PC数据集用于比较人类和深度神经网络在三维场景分析能力上的差异,包含三个任务:VPT-basic、VPT-strategy和depth order。

The 3D-PC dataset is designed to compare the differences in 3D scene analysis capabilities between humans and deep neural networks. It includes three tasks: VPT-basic, VPT-strategy, and depth order.
创建时间:
2024-05-31
原始信息汇总

数据集概述

数据集名称

  • 3D-PC

数据集内容

  • 任务类型:包含三个任务,分别是VPT-basic(基本视觉视角任务)、VPT-strategy(策略性视觉视角任务)和depth order(深度排序)。
  • 数据组织
    • 训练集:包含所有训练图像,按类别组织。结构如下:

      train | |<category> | |<object> | |<setting> | |<*.png>

      对应的标签文件为train_perspective.csvdepth_perspective.csv,以及平衡版本的train_perspective_balanced.csvdepth_perspective_balanced.csv

    • 测试集:包含所有数据分割,用于VPT和depth order任务。结构如下:

      perspective/depth | |<split> | |<category> 0/1 | |_<*.png>

数据集访问

  • Hugging Face:提供所有三个任务的数据。 python from datasets import load_dataset dataset = load_dataset("pzhou10/3D-PC", "vpt-basic")

  • 完整数据集下载:提供完整的3D-PC数据集及训练和测试数据分割。

    • 下载链接:https://connectomics.clps.brown.edu/tf_records/VPT/

数据集使用

  • TIMM评估
    • 线性探针

      python run_linear_probe.py --task <task> --data_dir <data_folder>/<task>/ --model_name <model_name>

    • 微调

      python run_finetune.py --task <task> --data_dir <data_folder>/<task>/ --model_name <model_name>

引用信息

@misc{linsley20243dpc, title={The 3D-PC: a benchmark for visual perspective taking in humans and machines}, author={Drew Linsley and Peisen Zhou and Alekh Karkada Ashok and Akash Nagaraj and Gaurav Gaonkar and Francis E Lewis and Zygmunt Pizlo and Thomas Serre}, year={2024}, eprint={2406.04138}, archivePrefix={arXiv}, primaryClass={cs.CV} }

搜集汇总
数据集介绍
main_image_url
构建方式
在构建3D-PC数据集时,研究团队精心设计了三个关键任务:深度顺序分析、基础视觉视角任务(VPT-basic)以及策略限制的视觉视角任务(VPT-strategy)。这些任务均基于自然场景图像,旨在评估人类和深度神经网络(DNNs)在三维场景分析中的表现。数据集的构建过程包括对超过30名人类参与者和300多个DNNs进行测试,通过线性探针或文本提示来评估其在不同3D分析任务中的表现。此外,数据集还提供了平衡的正负样本,以确保训练和测试的公正性。
特点
3D-PC数据集的显著特点在于其多任务设计,涵盖了从基础到复杂的视觉视角任务,旨在全面评估模型在三维场景理解中的能力。数据集不仅提供了丰富的图像数据,还包含了详细的标签信息,如视角和深度顺序,便于进行深入的分析和模型训练。此外,数据集的平衡设计确保了正负样本的均衡分布,减少了因样本不均导致的偏差。
使用方法
使用3D-PC数据集时,用户可以通过Hugging Face平台直接加载数据,选择特定的配置(如vpt-basic、vpt-strategy或depth)进行任务训练。对于更高级的用户,数据集还提供了完整的下载选项,包括训练和测试数据的分区。用户可以通过提供的Python脚本进行线性探针或微调TIMM模型,具体操作包括指定任务类型、数据目录和模型名称。这些脚本简化了模型评估和训练的过程,使得研究人员能够快速上手并进行深入的实验。
背景与挑战
背景概述
3D-PC数据集由布朗大学的Carney Institute for Brain Science和加州大学欧文分校的认知科学系联合开发,旨在探索人类与深度神经网络在三维场景分析中的能力差异。该数据集的核心研究问题聚焦于视觉视角转换(VPT),即人类如何准确感知和推理他人的视角。通过对比人类与深度神经网络在处理物体深度顺序、基本VPT任务及其挑战性版本上的表现,研究团队揭示了当前深度学习模型在复杂三维场景理解中的局限性。这一研究不仅深化了对人类智能的理解,也为开发更高效的三维场景分析算法提供了宝贵的数据资源。
当前挑战
3D-PC数据集面临的挑战主要集中在两个方面。首先,尽管深度神经网络在物体深度顺序分析上表现出色,但在基本VPT任务上与人类存在显著差距,表明现有模型在复杂视角推理上的不足。其次,数据集构建过程中,如何设计有效的任务以区分人类与机器的视角转换能力,以及如何平衡正负样本以确保训练数据的代表性,都是亟待解决的问题。此外,如何通过数据集推动深度学习模型在三维场景理解上的进一步发展,也是该数据集未来需要面对的重要挑战。
常用场景
经典使用场景
在计算机视觉领域,3D-PC数据集被广泛用于评估和提升深度神经网络(DNNs)在三维场景分析中的能力。该数据集特别适用于研究视觉视角转换(VPT)任务,包括基本的VPT任务(VPT-basic)和更具挑战性的VPT任务(VPT-perturbation)。通过这些任务,研究者可以深入探讨DNNs在理解和模拟人类视角转换能力方面的表现,从而推动机器视觉系统在复杂场景中的应用。
实际应用
在实际应用中,3D-PC数据集为开发更智能的机器人视觉系统和增强现实(AR)应用提供了关键支持。通过训练和测试DNNs在三维场景中的表现,该数据集有助于提升机器在复杂环境中的导航和交互能力。此外,它还支持开发更精确的虚拟现实(VR)体验,通过模拟真实世界的视角转换,使用户体验更加沉浸和自然。
衍生相关工作
基于3D-PC数据集,研究者们开展了一系列相关工作,包括改进DNNs在三维场景分析中的性能和提升其在视觉视角转换任务中的表现。例如,一些研究通过微调DNNs在VPT-basic任务上的表现,使其接近人类水平,但同时也揭示了DNNs在处理VPT-perturbation任务时的局限性。这些研究不仅推动了DNNs在三维视觉任务中的应用,也为理解人类视觉系统的复杂性提供了新的视角。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作