GUIDEDOG

Name: GUIDEDOG
Creator: Yonsei University
Published: 2025-03-17 13:43:40
License: 暂无描述

arXiv2025-03-17 更新2025-03-19 收录

下载链接：

http://arxiv.org/abs/2503.12844v1

下载链接

链接失效反馈

官方服务：

资源简介：

GUIDEDOG是一个面向盲人和低视力人群的辅助技术的新型可访问性感知指导数据集，包含22,084个现实世界场景图像描述对，其中包括2,106个由人类验证的数据。该数据集通过YouTube视频采样获得，覆盖了各种真实世界设置，每个场景都根据GUIDEDOG标准进行注释。此外，还构建了一个评估子集GUIDEDOGQA，包含多项选择题问答对，用于评估视觉感知能力。

GUIDEDOG is a novel accessibility-aware guidance dataset for assistive technologies targeting blind and low-vision populations. It contains 22,084 real-world scene image-caption pairs, among which 2,106 samples have been verified by human annotators. This dataset is sampled from YouTube videos, covering diverse real-world scenarios, with each scene annotated in accordance with the GUIDEDOG standard. Additionally, an evaluation subset named GUIDEDOGQA has been constructed, which consists of multiple-choice question-answer pairs for assessing visual perception capabilities.

提供机构：

Yonsei University

创建时间：

2025-03-17

搜集汇总

数据集介绍

构建方式

GUIDEDOG数据集的构建采用了创新的标注流程，结合了自动化生成与人工验证的双阶段方法。首先，通过自动化管道生成高质量的银标签，这些标签基于GUIDEDOG标准，包含对象检测、深度线索和上下文元素。随后，人类专家对这些银标签进行验证和精炼，生成权威的金标签。这种以验证为中心的标注方式显著提高了效率，同时保持了高质量的标注。数据集的图像来源于YouTube上的步行视频，确保了地理和视觉的多样性，反映了盲人和低视力用户的日常移动体验。

特点

GUIDEDOG数据集包含22,084张图像描述对，其中2,106对经过人工验证，涵盖了广泛的现实世界场景。数据集的特点在于其多样性和高质量标注，特别是其基于GUIDEDOG标准的标注，确保了每张图像都包含对盲人和低视力用户至关重要的信息。此外，GUIDEDOGQA子集包含818个样本，用于评估细粒度的视觉感知能力，如物体识别和相对深度感知，进一步增强了数据集的实用性。

使用方法

GUIDEDOG数据集主要用于评估多模态大语言模型（MLLMs）在盲人和低视力用户导航辅助中的能力。通过GUIDEDOG标准，模型需要生成包含环境描述、障碍物信息和导航建议的综合性指导。GUIDEDOGQA子集则用于评估模型在物体识别和深度感知方面的能力。数据集的使用方法包括模型训练、评估和基准测试，旨在推动基于MLLMs的辅助技术研究，并为机器人学和增强现实等领域的自我中心场景理解提供支持。

背景与挑战

背景概述

GUIDEDOG数据集由延世大学和SK Telecom的研究团队于2025年推出，旨在为全球22亿盲人和低视力（BLV）人群提供辅助导航支持。该数据集包含22,084对图像描述，其中2,106对经过人工标注，涵盖了多样化的真实世界场景，特别是从行人视角捕捉的复杂环境。GUIDEDOG的创建基于多模态大语言模型（MLLMs）的最新进展，旨在解决BLV人群在导航中面临的空间感知和环境理解问题。通过引入GUIDEDOG标准，该数据集不仅为BLV辅助技术提供了高质量的训练数据，还推动了机器人技术和增强现实领域的场景理解研究。

当前挑战

GUIDEDOG数据集在构建过程中面临多重挑战。首先，BLV感知的标注需要领域专业知识和高强度的人工劳动，这限制了数据集的规模和多样性。其次，数据集的构建依赖于从YouTube视频中提取的步行场景，如何确保这些场景的多样性和地理分布的广泛性是一个技术难题。此外，GUIDEDOG标准要求对场景、障碍物和导航指令进行结构化描述，这对标注的准确性和一致性提出了极高要求。最后，深度感知和空间关系的理解是BLV辅助系统的核心挑战，现有模型在深度感知任务上的表现仍有待提升，这限制了其在复杂环境中的实际应用效果。

常用场景

经典使用场景

GUIDEDOG数据集最经典的使用场景是为盲人和低视力（BLV）个体提供实时导航辅助。通过捕捉行人视角下的多样化真实场景，该数据集能够帮助多模态大语言模型（MLLMs）生成精确的环境描述、障碍物信息以及导航建议，从而为BLV用户提供安全、可靠的出行指导。

衍生相关工作

GUIDEDOG数据集衍生了许多相关经典工作，特别是在多模态大语言模型和盲人辅助技术领域。例如，基于GUIDEDOG的研究推动了机器人导盲犬系统的开发，并促进了增强现实技术在盲人导航中的应用。此外，该数据集还为其他相关数据集（如VIALM和VizWiz）提供了参考，进一步丰富了盲人辅助技术的研究资源。

数据集最近研究