SocialNav-Dataset

Hugging Face2025-09-08 更新2025-09-09 收录

下载链接：

https://huggingface.co/datasets/nusshao/SocialNav-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

SocialNav-SUB数据集是一个视频问答（VQA）数据集，专门设计用于支持VLM的训练。该数据集通过提取视频中的前视图和BEV图像，构建了包含空间推理、时空推理和社会推理三类问题的问答对。每个问题都有一个与之关联的标签，该标签是基于可能性最高的答案确定的。数据集以openai-chat格式组织，包括问题和答案的对话，以及相关图像的路径。

创建时间：

2025-09-06

原始信息汇总

SocialNav-Dataset 概述

数据集背景

原始数据集地址：https://huggingface.co/datasets/michaelmunje/SocialNav-SUB
类型：视频问答（VQA）数据集
用途：用于训练视觉语言模型（VLM），特别针对llama-factory的监督微调（SFT）训练

数据处理流程

前视图提取

原始RGB图像包含前视图和鸟瞰图（BEV）拼接
通过extract_labeled.py脚本提取标注的RGB图像到/labeled_front_view文件夹
保留人员数量信息
通过downsample.py将图像分辨率降采样至640*360

问答对构建

通过build_dataset.py脚本构建openai-chat格式的VQA数据集

问题类别

空间推理（Spatial Reasoning）

人员开始/结束位置
目标开始/结束位置
人员是否阻碍机器人路径

时空推理（Spatiotemporal Reasoning）

机器人移动方向
人员距离变化
人员是否在视频中阻碍路径

社交推理（Social Reasoning）

机器人行为是否受人员影响
机器人与人员的高级关系动作
人员行为是否受机器人影响
人员与机器人的高级关系动作
未来动作预测

标签处理

选择概率最高的答案作为标签
示例：当概率分布为["no":0.9, "yes":0.1]时，标签确定为"no"

数据格式

openai-chat格式

json { "conversations": [ { "from": "human", "value": "<image>xN Based on the provided video, answer: ..." }, { "from": "gpt", "value": "answer" } ], "images": [ "labeled_front_view/{subfolder_name}/1.png", "labeled_front_view/{subfolder_name}/2.png", ... ] }

数据集配置

json { "socialnav": { "file_name": "dataset.json", "formatting": "sharegpt", "columns": { "messages": "conversations", "images": "images" }, "tags": { "role_tag": "from", "content_tag": "value", "user_tag": "human", "assistant_tag": "gpt" } } }

搜集汇总

数据集介绍

构建方式

在视频问答领域，SocialNav-Dataset的构建过程体现了多模态数据处理的技术路径。原始数据包含人类标注的RGB图像，其中前视图与鸟瞰图拼接，通过运行extract_labeled.py脚本提取前视图并保留人数信息，随后使用downsample.py进行分辨率降采样至640*360。问答对的生成则基于作者定义的三大推理类别问题，通过build_dataset.py脚本选取概率最高的答案作为标签，并构建符合openai-chat格式的对话结构，最终整合图像路径形成完整数据项。

特点

该数据集的核心特点在于其专注于社会导航场景中的多层级推理任务，涵盖空间推理、时空推理及社会推理三大类别。问题设计细致入微，例如涉及行人位置变化、机器人运动方向及人机交互影响等，具有高度的语义复杂性和场景实用性。图像数据经过预处理，确保分辨率统一且视角聚焦，同时问答对以结构化格式组织，支持多图像输入与文本答案的关联，为视觉语言模型训练提供了丰富且一致的上下文环境。

使用方法

数据集适用于视觉语言模型的监督微调，尤其适配llama-factory等训练框架。使用时需加载配置文件中定义的socialnav字段，指定数据文件路径及格式规范，其中messages字段对应对话内容，images字段关联图像路径。模型输入可包含单张或多张图像，配合问题文本生成答案，答案标签基于概率最大化原则选取。该结构支持端到端训练，能够有效处理视频片段中的动态社会交互推理任务。

背景与挑战

背景概述

SocialNav-Dataset由研究团队于近年开发，专注于视频问答任务在机器人社会导航领域的应用。该数据集通过多视角视觉数据与人工标注结合，旨在解决移动机器人在动态人机交互环境中的认知推理问题，涵盖空间推理、时空推理及社会行为推理三个核心维度。其创新性在于将传统视觉问答框架扩展到社会导航场景，为具身智能与社会机器人学提供了重要的基准数据支撑。

当前挑战

该数据集首要挑战在于解决社会导航中多模态时序推理的复杂性，需同时处理动态目标的空间定位、人际交互意图识别以及机器人行为策略的语义解释。构建过程中面临原始数据异构性挑战，包括前视与鸟瞰视角的图像拼接处理、多标签概率融合的标注标准化，以及视频帧到问答对的跨模态对齐。此外，还需克服高分辨率图像处理与轻量化数据格式转换之间的技术平衡问题。

常用场景

经典使用场景

在机器人导航与人类交互的复杂场景中，SocialNav-Dataset为视频问答任务提供了丰富的多模态数据支持。该数据集通过提取前视图图像并构建结构化问答对，专注于空间推理、时空推理及社会推理三大核心问题，广泛应用于视觉语言模型的监督微调训练，特别是在需要理解动态社会环境中机器人决策过程的研究中。

衍生相关工作

基于SocialNav-Dataset衍生的经典工作包括多模态融合架构的优化、社会导航策略的强化学习框架以及视觉语言模型在动态场景中的泛化研究。这些工作不仅扩展了数据集的标注体系与问题类型，还催生了新一代社会感知导航算法的诞生，为构建更自然、高效的人机共融环境奠定了理论基础。

数据集最近研究