PAVE
收藏github2026-03-12 更新2026-03-14 收录
下载链接:
https://github.com/rafiibnsultan/WalkGPT
下载链接
链接失效反馈官方服务:
资源简介:
PAVE(行人无障碍视觉语言数据集)是一个包含41k行人视角图像-问题-答案三元组的大型数据集,具有结构化基础标记、分割对齐和深度感知注释。
PAVE (Pedestrian Accessibility Vision-Language Dataset) is a large-scale dataset comprising 41,000 image-question-answer triplets from a pedestrian's perspective, featuring structured grounding tags, segmentation-aligned annotations, and depth-aware annotations.
创建时间:
2026-02-24
原始信息汇总
WalkGPT数据集概述
数据集基本信息
- 数据集名称:WalkGPT
- 核心任务:面向行人无障碍导航的像素级接地视觉-语言对话模型,具备深度感知分割和结构化推理能力。
- 关联论文:WalkGPT: Grounded Vision–Language Conversation with Depth-Aware Segmentation for Pedestrian Navigation
- 论文状态:已被CVPR 2026接收
- 论文链接:https://arxiv.org/abs/2603.10703
核心数据集:PAVE
- 数据集全称:Pedestrian Accessibility Vision–Language Dataset (PAVE)
- 数据集规模:包含41,000个行人视角的图像-问题-答案三元组。
- 数据内容:每个三元组包含结构化接地标记、分割对齐和深度感知标注。
- 公开地址:https://huggingface.co/datasets/rafiibnsultan1/PAVE
模型与方法
- 模型架构:统一的像素接地大型视觉-语言模型,将语言推理和分割整合在单一架构中。
- 核心组件:
- 多尺度查询投影器:通过跨空间层次聚合文本标记来塑造最终图像标记。
- 校准文本投影器:在提出的区域对齐损失指导下,将语言嵌入映射到分割感知表示中。
- 主要功能:给定行人视角图像和导航查询,模型生成包含分割掩码的对话响应,这些掩码描绘了无障碍和有害特征,并提供相对深度估计。
关键贡献
- 专为行人无障碍导航设计的像素接地LVLM。
- 用于分割、空间推理和对话指导的统一架构。
- 用于分层视觉接地的多尺度查询投影器。
- 具有区域对齐损失的校准文本投影器,用于细粒度标记-区域对齐。
- 引入了用于无障碍感知空间推理的PAVE基准。
资源获取
- 模型权重:预训练的WalkGPT-13B模型权重可在Hugging Face获取:https://huggingface.co/rafiibnsultan/walkgpt-13b
- 代码仓库:https://github.com/rafiibnsultan1/WalkGPT.git
致谢与引用
- 致谢项目:此工作受益于PixelLM开源接地框架和SANPO数据集提供的真实世界行人图像。
- 引用格式:请使用提供的BibTeX条目引用此工作。
搜集汇总
数据集介绍

构建方式
在计算机视觉与无障碍导航研究领域,PAVE数据集的构建体现了对复杂城市场景深度理解的系统性追求。该数据集通过采集大量行人视角图像,并精心设计与之对应的无障碍感知问题及深度感知答案,形成了超过四万一千个图像-问题-答案三元组。每个样本均融合了结构化基础标记、分割对齐信息以及深度感知标注,构建过程注重语义与空间信息的协同标注,为模型提供了细粒度的视觉语言对齐基础。
特点
PAVE数据集的核心特征在于其深度融合了视觉、语言与空间推理的多模态标注体系。数据集不仅包含常规的图像描述与问答对,更创新性地引入了深度感知标注与分割对齐信息,使得样本能够同时反映场景的语义内容、空间布局及无障碍属性。这种结构化、层次化的标注方式为模型进行像素级视觉语言基础与深度感知推理提供了丰富且可靠的监督信号,显著提升了数据在导航辅助任务中的实用性与科学性。
使用方法
在具体应用层面,PAVE数据集主要用于训练与评估如WalkGPT等面向行人导航的视觉语言模型。研究者可通过Hugging Face平台获取数据集,并利用其提供的图像-问题-答案三元组进行模型训练。数据集中包含的深度与分割标注可直接用于监督模型学习像素级基础与空间推理能力。在评估阶段,该数据集能够系统检验模型在生成对话式导航指引、识别可通行区域与障碍物以及进行相对深度估计等方面的综合性能。
背景与挑战
背景概述
在计算机视觉与人工智能辅助导航领域,如何实现复杂城市场景下兼顾语义理解与空间感知的导航引导,一直是研究的前沿课题。PAVE数据集由Rafi Ibn Sultan等研究人员于2026年构建,作为WalkGPT模型的核心基准,旨在解决行人视角下的无障碍导航问题。该数据集包含41,000张行人视角图像,每张图像均配有与无障碍性相关的问答对及深度感知标注,其核心研究问题聚焦于提升视觉-语言模型在真实环境中的空间推理与细粒度接地能力。PAVE的提出不仅推动了视觉-语言模型在辅助导航领域的应用,也为深度感知与语义分割的融合研究提供了重要数据支撑。
当前挑战
PAVE数据集所针对的领域挑战在于,现有大型视觉-语言模型在复杂城市场景中常出现物体幻觉与深度推理不可靠的问题,难以提供精准的无障碍导航指导。构建过程中的挑战则体现在数据标注的复杂性上:需要同时整合结构化接地标记、分割对齐与深度感知注释,这要求标注系统能够精确捕捉行人视角下的空间层次与语义细节,确保数据在支持模型进行细粒度空间推理时的有效性与一致性。
常用场景
经典使用场景
在计算机视觉与人工智能辅助导航领域,PAVE数据集为研究社区提供了一个大规模、结构化的基准,专门用于评估模型在复杂城市场景中的可访问性感知能力。该数据集通过整合行人视角图像、语义问题与深度感知答案,典型应用于训练和验证视觉-语言模型,使其能够理解并推理环境中的空间布局与障碍物分布,从而生成精准的导航指导。
解决学术问题
PAVE数据集有效应对了现有大型视觉-语言模型在空间推理与对象幻觉方面的局限性,为学术界提供了系统性的评估框架。它促进了模型在语义分割、深度估计与语言生成统一架构下的研究,解决了模型缺乏显式视觉接地导致的不可靠性问题,推动了可访问性导航任务向更细粒度、更可靠的方向发展。
衍生相关工作
围绕PAVE数据集,研究社区已衍生出多项经典工作,其中WalkGPT模型作为代表性成果,引入了多尺度查询投影器与校准文本投影器等创新组件。此外,该数据集也启发了后续在视觉接地、深度感知分割以及人机交互导航领域的探索,为像素级视觉-语言模型的演进提供了重要基准与灵感来源。
以上内容由遇见数据集搜集并总结生成



