DiverseAR

github2025-01-22 更新2025-01-23 收录

下载链接：

https://github.com/ARResearch-1/DiverseAR-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

DiverseAR数据集包含318张图像，这些图像来自公共网站DeepAR、两个商业AR平台（Amazon和Scaniverse）、三个由我们实验室开发的AR应用程序（运行在Magic Leap、Android和HoloLens上），以及两个专门为此项目创建的AR应用程序（运行在Apple Vision Pro和Android上）。数据集旨在捕捉广泛的AR场景，包括298张AR图像和20张非AR图像。

The DiverseAR dataset consists of 318 images sourced from public website DeepAR, two commercial AR platforms (Amazon and Scaniverse), three AR applications developed by our laboratory (running on Magic Leap, Android, and HoloLens), and two AR applications specifically created for this project (running on Apple Vision Pro and Android). The dataset aims to capture a broad range of AR scenarios, including 298 AR images and 20 non-AR images.

创建时间：

2024-12-28

原始信息汇总

DiverseAR 数据集概述

数据集简介

DiverseAR 数据集是一个包含 318 张图像的数据集，旨在评估视觉语言模型（VLMs）在增强现实（AR）场景理解方面的能力。该数据集涵盖了从多个来源和环境收集的 AR 图像，包括公共网站、商业 AR 平台、实验室开发的 AR 应用以及专门为该项目创建的 AR 应用。

数据集组成

AR 图像：298 张，来自不同来源和环境。
- 23 张图像来自实验室和厨房环境中的 Apple Vision Pro AR 应用。
- 151 张图像来自卧室和餐厅环境中的 Android AR 应用。
- 42 张图像用于探索 AR 特定研究主题，如注意力模式、虚拟内容排列和手术指导。
- 7 张图像来自 Amazon 应用的 AR 视图，展示玻璃物体。
- 46 张图像来自 Scaniverse 应用的 AR 视图，展示实验室、厨房和餐厅环境。
- 29 张图像来自展示 AR 广告视频的网站。
非 AR 图像：20 张，作为数据集的补充。

AR 场景复杂度分类

数据集根据 AR 场景的复杂度分为三个等级：

简单：包含明显虚拟内容的图像，如透明或发光覆盖物，或渲染质量较低的虚拟物体。
中等：包含高质量虚拟内容的图像，但存在与物理定律不一致的情况，如漂浮或交叉的物体。
困难：包含高质量虚拟内容的图像，虚拟内容与现实环境无缝融合，具有适当的阴影、真实的大小和形状，并遵循物理定律。

数据集结构

数据集采用以下层次结构：

DiverseAR_dataset └───images │ │ │ └───image_1.png │ └───image_2.png │ ... └───DiverseAR_annotation.csv

DiverseAR_annotation.csv 文件包含以下列：

image_name：图像名称。
AR/NonAR：图像是否为 AR 图像。
source：图像来源平台。
complexity_level：AR 场景复杂度等级。

数据集下载

完整数据集下载链接：https://duke.box.com/s/kdh4ns4ep2a3sjde05prk0hik0juzz9f
部分未增强的原始数据下载链接：https://duke.box.com/s/915pors2tn4dtrazfjesd2k7vm73b8eg

引用

如果使用 DiverseAR 数据集进行学术研究，请引用以下文献：

@inproceedings{DiverseAR, title={Advancing the Understanding and Evaluation of AR-Generated Scenes: When Vision-Language Models Shine and Stumble}, author={Duan, Lin, and Xiu, Yanming and Gorlatova, Maria}, booktitle={Proceedings of IEEE VR GenAI-XR 2025}, year={2025} }

致谢

该数据集由 Lin Duan、Yanming Xiu 和 Maria Gorlatova 创建。感谢用户研究参与者的宝贵帮助。该研究得到了 NSF、CISCO、Meta、DARPA 和陆军研究实验室的支持。

搜集汇总

数据集介绍

构建方式

DiverseAR数据集的构建旨在评估视觉语言模型（VLMs）在增强现实（AR）场景理解中的表现。该数据集通过多种来源和环境收集了318张图像，涵盖了从公共网站、商业AR平台到实验室开发的AR应用。具体而言，数据集包括298张AR图像和20张非AR图像，分别来自Apple Vision Pro、Android、Magic Leap、HoloLens等设备，涵盖了实验室、厨房、卧室等多种环境。此外，数据集还特别设计了42张图像，用于探索AR特定研究主题，如注意力模式、虚拟内容布局和手术引导等。

特点

DiverseAR数据集的特点在于其多样性和复杂性。数据集不仅涵盖了广泛的AR场景，还包含了非AR图像作为补充。AR图像根据虚拟内容与真实环境的融合程度，分为简单、中等和困难三个复杂度等级，分别对应91、128和79张图像。数据集中的虚拟和真实对象涵盖了多种类别，如玩具、食物、鞋子、植物、笔记本电脑等，展示了虚拟内容与真实世界的丰富交互。此外，数据集还提供了详细的注释文件，标注了每张图像的来源、是否为AR图像以及复杂度等级。

使用方法

DiverseAR数据集的使用方法较为灵活，适用于多种AR场景理解和视觉语言模型的研究任务。用户可以通过下载数据集中的图像和注释文件，进行AR场景分类、虚拟内容识别等任务。数据集的结构采用层次化文件组织，图像文件与注释文件分别存储，便于用户快速访问和处理。注释文件中的列包括图像名称、是否为AR图像、来源平台和复杂度等级，用户可以根据这些信息进行数据筛选和分析。此外，数据集还提供了部分未增强的原始数据，供用户进行进一步的数据处理和实验设计。

背景与挑战

背景概述

DiverseAR数据集由杜克大学的研究团队于2025年创建，旨在推动增强现实（AR）场景理解与评估的研究。该数据集由318张图像组成，涵盖了从多个公共和商业AR平台（如DeepAR、Amazon、Scaniverse）以及实验室开发的AR应用中收集的多样化AR场景。数据集的设计初衷是为了评估视觉-语言模型（VLMs）在AR场景中的表现，特别是在虚拟内容与现实世界融合的复杂场景中。DiverseAR的发布为AR领域的研究提供了重要的数据支持，尤其是在AR场景的复杂性分类和虚拟内容与现实世界的交互研究方面具有显著影响力。

当前挑战

DiverseAR数据集在构建和应用过程中面临多重挑战。首先，AR场景的复杂性分类是一个核心难题，数据集通过定义‘简单’、‘中等’和‘困难’三个层次来区分虚拟内容与现实世界的融合程度，但如何确保分类标准的客观性和一致性仍需进一步研究。其次，数据集的构建涉及多个来源和平台，如何统一不同平台生成的AR图像的质量和格式，以及如何确保数据的多样性和代表性，是构建过程中的主要技术挑战。此外，数据集的应用场景主要集中在AR场景理解与评估，如何进一步提升视觉-语言模型在复杂AR场景中的表现，仍需更多的实验和优化。

常用场景

经典使用场景

DiverseAR数据集广泛应用于增强现实（AR）场景的理解与评估研究。该数据集通过涵盖从简单到复杂的多种AR场景，为研究人员提供了一个全面的测试平台，用于评估视觉-语言模型（VLMs）在AR环境中的表现。特别是在AR生成的虚拟内容与现实世界融合的场景中，DiverseAR能够帮助研究者深入分析模型在不同复杂度下的识别与理解能力。

实际应用

在实际应用中，DiverseAR数据集为AR技术的开发与优化提供了重要支持。例如，在AR广告、虚拟购物和医疗手术导航等领域，该数据集能够帮助开发者测试和优化AR应用的视觉效果与用户体验。通过分析不同复杂度场景下的模型表现，开发者可以更好地设计AR内容，使其与现实环境无缝融合，提升用户沉浸感。

衍生相关工作

DiverseAR数据集催生了一系列相关研究工作，尤其是在AR场景理解与视觉-语言模型结合领域。基于该数据集的研究不仅推动了AR技术的进步，还为跨模态学习提供了新的研究方向。例如，一些研究利用DiverseAR数据集探索了虚拟内容在现实环境中的注意力分布模式，进一步优化了AR应用的交互设计与用户体验。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集