DiverseAR
收藏DiverseAR 数据集概述
数据集简介
DiverseAR 数据集是一个包含 318 张图像的数据集,旨在评估视觉语言模型(VLMs)在增强现实(AR)场景理解方面的能力。该数据集涵盖了从多个来源和环境收集的 AR 图像,包括公共网站、商业 AR 平台、实验室开发的 AR 应用以及专门为该项目创建的 AR 应用。
数据集组成
- AR 图像:298 张,来自不同来源和环境。
- 23 张图像来自实验室和厨房环境中的 Apple Vision Pro AR 应用。
- 151 张图像来自卧室和餐厅环境中的 Android AR 应用。
- 42 张图像用于探索 AR 特定研究主题,如注意力模式、虚拟内容排列和手术指导。
- 7 张图像来自 Amazon 应用的 AR 视图,展示玻璃物体。
- 46 张图像来自 Scaniverse 应用的 AR 视图,展示实验室、厨房和餐厅环境。
- 29 张图像来自展示 AR 广告视频的网站。
- 非 AR 图像:20 张,作为数据集的补充。
AR 场景复杂度分类
数据集根据 AR 场景的复杂度分为三个等级:
- 简单:包含明显虚拟内容的图像,如透明或发光覆盖物,或渲染质量较低的虚拟物体。
- 中等:包含高质量虚拟内容的图像,但存在与物理定律不一致的情况,如漂浮或交叉的物体。
- 困难:包含高质量虚拟内容的图像,虚拟内容与现实环境无缝融合,具有适当的阴影、真实的大小和形状,并遵循物理定律。
数据集结构
数据集采用以下层次结构:
DiverseAR_dataset └───images │ │ │ └───image_1.png │ └───image_2.png │ ... └───DiverseAR_annotation.csv
DiverseAR_annotation.csv 文件包含以下列:
- image_name:图像名称。
- AR/NonAR:图像是否为 AR 图像。
- source:图像来源平台。
- complexity_level:AR 场景复杂度等级。
数据集下载
- 完整数据集下载链接:https://duke.box.com/s/kdh4ns4ep2a3sjde05prk0hik0juzz9f
- 部分未增强的原始数据下载链接:https://duke.box.com/s/915pors2tn4dtrazfjesd2k7vm73b8eg
引用
如果使用 DiverseAR 数据集进行学术研究,请引用以下文献:
@inproceedings{DiverseAR, title={Advancing the Understanding and Evaluation of AR-Generated Scenes: When Vision-Language Models Shine and Stumble}, author={Duan, Lin, and Xiu, Yanming and Gorlatova, Maria}, booktitle={Proceedings of IEEE VR GenAI-XR 2025}, year={2025} }
致谢
该数据集由 Lin Duan、Yanming Xiu 和 Maria Gorlatova 创建。感谢用户研究参与者的宝贵帮助。该研究得到了 NSF、CISCO、Meta、DARPA 和陆军研究实验室的支持。




