ViDDAR-Dataset

Name: ViDDAR-Dataset
Creator: 杜克大学
Published: 2025-01-22 08:17:08
License: 暂无描述

arXiv2025-01-22 更新2025-01-24 收录

下载链接：

https://github.com/YM-Xiu/ViDDAR-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

ViDDAR-Dataset是由杜克大学研究团队创建的一个开源数据集，旨在评估增强现实（AR）环境中的任务有害内容。该数据集包含两类攻击示例：阻塞攻击和信息操纵攻击，分别模拟了虚拟内容对现实世界信息的遮挡和误导。数据集通过用户研究验证了标签的准确性，确保了其与人类感知的一致性。数据集的应用领域主要集中在AR场景中的任务有害内容检测，旨在通过视觉语言模型（VLM）和深度学习技术，提升AR应用的安全性和用户体验。

The ViDDAR-Dataset is an open-source dataset created by a research team at Duke University, designed to evaluate task-related harmful content in augmented reality (AR) environments. This dataset includes two categories of attack examples: occlusion attacks and information manipulation attacks, which respectively simulate the obstruction and misdirection of real-world information by virtual content. The accuracy of the dataset's labels has been verified via user studies, ensuring consistency with human perception. The main application fields of this dataset focus on task-related harmful content detection in AR scenarios, aiming to enhance the safety and user experience of AR applications through visual language models (VLMs) and deep learning technologies.

提供机构：

杜克大学

创建时间：

2025-01-22

原始信息汇总

ViDDAR 数据集概述

1. 数据集简介

ViDDAR（Vision Language Model-based Detrimental content Detector for Augmented Reality）是一个用于检测增强现实（AR）环境中有害虚拟内容的系统。该数据集主要用于识别和评估两种类型的有害内容：

遮挡攻击：虚拟物体遮挡了重要的现实世界元素，使用户难以看到或与之交互。
信息操纵攻击：虚拟物体误导用户对现实世界物体的功能或含义的理解，可能导致误解。

2. 数据集内容

数据集主要由两部分组成：遮挡攻击数据集和信息操纵攻击数据集。

2.1 遮挡攻击数据集

数据量：306对（raw_img, ar_img）图像。
关键对象：每张原始图像包含1个关键对象，共有23类关键对象。
数据内容：
- obstruction_raw_img：原始图像。
- obstruction_ar_img：AR图像。
- obstruction_key_object_mask：原始图像中关键对象的二值掩码。
- obstruction_ar_content_mask：AR图像中虚拟内容的二值掩码。
标签：
- obstruction_labels.csv：包含每对（raw_img, ar_img）的两个标签：
  - 关键对象的名称。
  - 遮挡状态（虚拟内容是否遮挡了关键对象，"yes"表示遮挡，"no"表示未遮挡）。

2.2 信息操纵攻击数据集

数据量：114对（raw_img, ar_img）图像。
场景：每对图像展示了一个虚拟内容与现实世界物体结合的场景，共有10种组合。
数据内容：
- information_manipulation_raw_img：原始图像。
- information_manipulation_ar_img：AR图像。
标签：
- information_manipulation_labels.csv：包含每对（raw_img, ar_img）的四个标签：
  - 对齐精度（1表示好，0表示差）。
  - 风格相似性（1表示高，2表示低）。
  - 功能误导（1表示可能，0表示不可能）。
  - 总体信息操纵可能性（1表示高，0表示低）。

3. 相关材料

4. 数据集下载

数据集下载链接：ViDDAR Dataset

5. 致谢

该数据集由Yanming Xiu、Tim Scargill和Maria Gorlatova创建，并得到了NSF、CISCO、Meta和DARPA的支持。

搜集汇总

数据集介绍

构建方式

ViDDAR数据集的构建基于增强现实（AR）环境中虚拟内容对任务性能的负面影响。研究者通过数学框架定义了两类任务有害内容：遮挡攻击和信息操纵攻击。数据集中的图像对（原始图像和增强图像）通过Android AR应用生成，涵盖了多种真实场景。遮挡攻击通过随机放置几何形状模拟，而信息操纵攻击则依赖于ARCore的图像跟踪功能，确保虚拟内容与真实物体的精确对齐。数据集的标注通过用户研究验证，确保了标注的准确性和与人类感知的一致性。

使用方法

ViDDAR数据集的使用方法主要包括两个阶段：遮挡攻击检测和信息操纵攻击检测。对于遮挡攻击检测，系统通过视觉语言模型（VLM）识别关键物体，并使用多模态物体检测和分割模块生成掩码，进而与虚拟内容掩码进行像素级比较以判断遮挡情况。对于信息操纵攻击检测，系统通过VLM分析虚拟内容与真实物体的对齐、风格相似性以及信息误传情况，最终判断是否存在信息操纵。数据集还可用于训练和评估其他基于深度学习的AR内容检测模型，提升其在复杂场景中的表现。

背景与挑战

背景概述

ViDDAR-Dataset是由杜克大学的研究团队Yanming Xiu、Tim Scargill和Maria Gorlatova于2025年创建的，旨在解决增强现实（AR）环境中虚拟内容对任务性能的负面影响问题。该数据集专注于两类任务有害的虚拟内容：遮挡攻击和信息操纵攻击。遮挡攻击指虚拟内容遮挡了现实世界中的关键物体，而信息操纵攻击则通过虚拟内容干扰用户对现实世界信息的准确理解。ViDDAR-Dataset的创建为AR环境中的虚拟内容质量评估提供了重要的数据支持，推动了AR安全性和用户体验的提升。该数据集通过结合视觉语言模型（VLMs）和深度学习技术，首次在AR场景中实现了对任务有害内容的检测，具有重要的学术和应用价值。

当前挑战

ViDDAR-Dataset在构建和应用过程中面临多重挑战。首先，任务有害内容的检测需要模型具备对复杂场景的语义理解能力，尤其是信息操纵攻击的检测依赖于对虚拟内容与现实世界物体之间关系的深度分析，这对模型的上下文理解能力提出了极高要求。其次，数据集的构建过程中，如何准确标注虚拟内容与真实物体之间的交互关系，尤其是信息操纵攻击的标注，具有较高的主观性，容易引入标注偏差。此外，实时检测任务对系统的延迟要求极高，尤其是在遮挡攻击检测中，系统需要在毫秒级时间内做出响应，这对模型的效率和计算资源提出了严峻挑战。最后，AR环境的动态性和多样性使得数据集的泛化能力面临考验，如何在不同场景下保持高精度的检测效果仍需进一步研究。

常用场景

经典使用场景

ViDDAR数据集在增强现实（AR）领域中主要用于检测任务有害的虚拟内容，特别是遮挡攻击和信息操纵攻击。通过提供包含真实世界图像和增强图像的配对数据，ViDDAR数据集为研究人员提供了一个标准化的评估平台，用于开发和测试基于视觉语言模型（VLM）的检测系统。该数据集在AR应用中的经典使用场景包括导航系统、教育工具和工业辅助设备，其中虚拟内容的正确放置和设计对用户体验至关重要。

解决学术问题

ViDDAR数据集解决了AR领域中虚拟内容可能对任务性能产生负面影响的关键问题。具体而言，它帮助研究人员量化并检测虚拟内容对真实世界信息的遮挡和误导。通过提供数学框架和标注数据，ViDDAR数据集使得研究人员能够开发出更精确的检测算法，从而减少因虚拟内容不当放置而导致的用户误解或操作失误。这一数据集的出现填补了AR内容质量评估领域的空白，推动了AR技术的安全性和实用性研究。

实际应用

在实际应用中，ViDDAR数据集被广泛用于开发AR系统中的实时检测工具。例如，在智能导航系统中，ViDDAR可以帮助检测虚拟导航箭头是否遮挡了关键的道路标志，从而避免用户因信息缺失而发生交通事故。此外，在教育AR应用中，该数据集可以用于确保虚拟教学材料不会误导学生对真实世界对象的理解。通过结合边缘计算和云计算的架构，ViDDAR系统能够在低延迟的情况下提供高效的检测服务，显著提升了AR应用的用户体验和安全性。

数据集最近研究