SocialNav-SUB

Name: SocialNav-SUB
Creator: 德克萨斯大学奥斯汀分校计算机科学系
Published: 2025-09-11 00:47:00
License: 暂无描述

arXiv2025-09-11 更新2025-11-24 收录

下载链接：

https://hf-mirror.com/datasets/michaelmunje/SocialNav-SUB

下载链接

链接失效反馈

官方服务：

资源简介：

SocialNav-SUB是一个视觉问答（VQA）数据集和基准测试，旨在评估视觉语言模型（VLM）在现实世界中社交机器人导航场景下的场景理解能力。数据集包含4968个独特的问题及其对应的答案，这些答案由人类提供，作为真实标签。SocialNav-SUB基于SCAND数据集构建，提供了各种人群密度和社会导航交互的社会机器人导航场景，并具有丰富的对象中心视觉表示，包括机器人的视觉视角和包含行人坐标跟踪的鸟瞰图（BEV）。该数据集旨在解决社会机器人导航中的空间推理、时序推理和理解复杂人类意图等关键挑战。

SocialNav-SUB is a visual question answering (VQA) dataset and benchmark designed to evaluate the scene understanding capabilities of vision-language models (VLMs) in real-world social robot navigation scenarios. The dataset contains 4,968 unique questions paired with their human-provided ground-truth answers. Built upon the SCAND dataset, SocialNav-SUB provides social robot navigation scenarios with varying crowd densities and social navigation interactions, and features rich object-centric visual representations, including the robot's egocentric view and a bird's-eye view (BEV) with tracked pedestrian coordinates. This dataset aims to address key challenges in social robot navigation, such as spatial reasoning, temporal reasoning, and understanding complex human intentions.

提供机构：

德克萨斯大学奥斯汀分校计算机科学系

创建时间：

2025-09-11

搜集汇总

数据集介绍

构建方式

在动态人机交互场景理解领域，SocialNav-SUB数据集通过系统化流程构建视觉问答基准。该数据集从SCAND社交机器人导航数据集中筛选60个高密度人群场景，利用PHALP算法进行行人三维姿态追踪，结合机器人里程计数据生成鸟瞰视角与第一视角融合的增强视觉表示。通过多轮人工标注研究收集4968个问题的共识答案，构建覆盖空间推理、时空推理与社交推理的三维评估体系。

特点

该数据集的核心特征体现在多模态场景表示的创新性，通过融合时序图像序列与鸟瞰视角坐标标注，提供丰富的对象中心化空间信息。其问题设计涵盖三大认知维度：空间关系定位要求模型理解行人相对位置，时空动态分析考察运动轨迹预测，社交意图推理则挑战模型对人际互动规则的解读能力。数据集特别强调真实场景复杂性，平均每场景包含6.65个行人，且包含盲区转角等高风险场景，为评估模型在现实环境中的鲁棒性提供有效基准。

使用方法

研究者可通过加载标准化的视觉问答提示格式使用该数据集，输入包含时序图像序列与鸟瞰视角的增强视觉表示。评估时采用概率一致性指标与共识加权一致性指标，将模型输出与多人标注的答案分布进行对比。支持链式推理提示策略，可通过渐进式问题序列考察模型的复合推理能力。该基准适用于闭源与开源视觉语言模型的系统性评测，并为改进社交导航场景理解模型提供细粒度性能分析框架。

背景与挑战

背景概述

SocialNav-SUB数据集由德克萨斯大学奥斯汀分校的研究团队于2025年创建，旨在系统评估视觉语言模型在社交机器人导航场景中的理解能力。该数据集基于SCAND社交导航数据集构建，通过视觉问答框架深入探索模型在空间推理、时空推理及社会推理三个维度的表现。其核心研究问题聚焦于如何使视觉语言模型准确解析动态人机交互场景中的空间关系、运动轨迹及社会意图，为开发具备社会合规性的自主导航系统奠定理论基础，对机器人学与人机交互领域的发展具有重要推动作用。

当前挑战

该数据集致力于解决社交机器人导航中场景理解的复杂挑战，包括模型在密集人群环境下空间定位偏差、动态轨迹预测不准确以及社会意图推断能力不足等问题。在构建过程中，研究团队面临多模态数据对齐的复杂性，需通过PHALP算法实现行人三维姿态估计与鸟瞰图坐标转换，并设计涵盖三类推理能力的4968个标注问题。同时，数据标注需克服人类主观判断差异，通过多人标注共识机制建立可靠评估基准，确保模型性能衡量的科学性与一致性。

常用场景

经典使用场景

在社交机器人导航领域，SocialNav-SUB数据集被广泛用于评估视觉语言模型在动态人机交互环境中的场景理解能力。该数据集通过视觉问答任务，系统性地测试模型在空间推理、时空推理及社会推理三个维度的表现，为研究者在复杂社交导航场景中提供标准化的评估框架。

实际应用

该数据集的实际价值体现在提升社交机器人在真实环境中的导航安全性。通过评估模型对行人轨迹预测、避障决策等任务的性能，可为自动驾驶、服务机器人等领域的系统设计提供参考。例如，在密集人群环境中，基于该数据集的评估能指导机器人生成符合社会规范的路径规划策略。

衍生相关工作

SocialNav-SUB催生了多项聚焦于视觉语言模型细化的研究，例如针对空间推理能力优化的SpatialVLM模型，以及结合专用感知模块的混合系统架构。此外，该基准启发了对链式思维提示、鸟瞰图表示等技术的深入探索，为社交导航领域提供了可复现的评估范式与改进方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集