mmWalk

Name: mmWalk
Creator: Hunan University, ETH Zurich, University of Texas at Austin, Zhejiang University, KIT, Center for Digital Accessibility and Assistive Technology (ACCESS@KIT), CV:HCI
Published: 2025-10-13 23:25:52
License: 暂无描述

arXiv2025-10-13 更新2025-10-15 收录

下载链接：

https://doi.org/10.7910/DVN/KKDXDK

下载链接

链接失效反馈

官方服务：

资源简介：

mmWalk是一个模拟的多模态数据集，专为户外安全导航设计，整合了多视图传感器和面向可访问性的特征。数据集包含120条手动控制的、按场景分类的行走轨迹，共62,167帧同步帧，超过559,503张全景图像，包括RGB、深度和语义分割等模态。此外，为了强调现实世界的相关性，每个轨迹都涉及户外特殊情况和无障碍特定地标，以帮助低视力用户导航。同时，我们生成了mmWalkVQA，这是一个包含超过69k个视觉问答三元组的VQA基准，旨在为安全、知情的步行辅助提供可访问和包容的基准。通过在真实世界数据集上验证mmWalk微调模型的有效性，我们展示了该数据集在推进多模态步行辅助方面的潜力。

mmWalk is a simulated multimodal dataset designed for outdoor safety navigation, integrating multi-view sensors and accessibility-oriented features. The dataset contains 120 manually controlled, scene-classified walking trajectories, totaling 62,167 synchronized frames and over 559,503 panoramic images across modalities including RGB, depth, and semantic segmentation. Furthermore, to emphasize real-world relevance, each trajectory covers special outdoor scenarios and accessibility-specific landmarks to assist visually impaired users with navigation. Meanwhile, we have developed mmWalkVQA, a VQA benchmark containing over 69,000 visual question answering triplets, which serves as an accessible and inclusive benchmark for safe and informed walking assistance. By validating the effectiveness of mmWalk-fine-tuned models on real-world datasets, we demonstrate the dataset's potential to advance multimodal walking assistance research.

提供机构：

Hunan University, ETH Zurich, University of Texas at Austin, Zhejiang University, KIT, Center for Digital Accessibility and Assistive Technology (ACCESS@KIT), CV:HCI

创建时间：

2025-10-13

原始信息汇总

mmWalk Dataset 数据集概述

基本描述

数据集名称: mmWalk Dataset
副标题: mmWalk: A Multi-modal Multi-view Benchmark for Inclusive Walking Assistance with VLM Embodiments
版本: 3.0
发布日期: 2025-04-29
存储库: Harvard Dataverse
永久标识符: https://doi.org/10.7910/DVN/KKDXDK

数据集内容

数据规模: 包含120条轨迹，62,000个同步帧，总计超过559,000张图像，附带IMU和动作数据
问答数据集: mmWalkQA包含69,400个问答对，涵盖9种不同的问答类型和3个难度级别
软件依赖: Carla Simulator, Version: 0.10.0

主题分类

学科: 计算机与信息科学
关键词: 多模态基准、计算机视觉、视力障碍人士、步行辅助

文件信息

文件总数: 167个文件
文件类型:
- 归档文件: 165个
- 文档: 1个
- 文本文件: 1个
文件示例:
- README.txt (1.3 KB)
- Busstop01.zip (491.7 MB)
- Busstop02.zip (1.1 GB)
- 其他公交站点相关数据文件

使用条款

许可证: CC BY 4.0
访问说明: 数据集过大无法直接下载，需从文件表中选择所需文件

作者信息

主要作者:
- Ying, Kedi (Karlsruher Institut für Technologie)
- Liu Ruiping (Karlsruher Institut für Technologie)
- Chen Chongyan (University of Texas at Austin)
- Tao Mingzhe (Karlsruher Institut für Technologie)
- Shi Hao (Zhejiang University)
- Yang Kailun (Hunan University)
- Zhang Jiaming (Karlsruher Institut für Technologie)
- Rainer Stiefelhagen (Karlsruher Institut für Technologie)

相关材料

模拟器引用: CARLA: An Open Urban Driving Simulator (Dosovitskiy et al., 2017)

搜集汇总

数据集介绍

构建方式

在视觉辅助技术领域，mmWalk数据集通过Carla仿真平台构建，模拟真实户外导航场景。该数据集包含120条手动控制的行走轨迹，涵盖7类场景和5种天气条件，通过多视角传感器同步采集RGB、深度和语义分割图像。每帧数据经过立方图转换生成全景图像，最终形成62,167个同步帧和超过55.9万张全景图像，并标注了轨迹元数据、盲人关键角案例及导航地标。

使用方法

该数据集适用于多模态视觉语言模型的评估与优化，用户可通过加载同步帧数据与元信息进行场景理解任务。mmWalkVQA基准支持零样本和少样本测试，涵盖从基础属性查询到复杂风险评估的9类任务。研究者可利用多视角图像输入训练模型，并通过轨迹划分的测试集验证模型在盲人导航任务中的泛化能力，其标准化评估流程支持LLM自动评分与人工验证相结合。

背景与挑战

背景概述

视觉辅助技术领域长期致力于解决盲人与低视力群体的户外导航挑战，然而传统数据集在安全风险感知与多视角环境理解方面存在明显不足。2025年，由卡尔斯鲁厄理工学院、湖南大学等机构联合发布的mmWalk数据集应运而生，其通过集成无人机、导盲犬与行人视角的同步多模态数据，构建了包含62,000帧全景图像与55万张标注样本的模拟环境数据库。该数据集聚焦于极端天气、复杂地形等七类户外场景，首次系统性地标注了八种盲人导航高危场景与十八类导航地标，为视觉-语言模型在辅助导航领域的性能评估提供了标准化基准，显著推动了无障碍技术向安全感知与空间认知方向的演进。

当前挑战

mmWalk数据集致力于解决盲人户外导航中安全风险评估与多视角环境理解的核心难题，其挑战体现在两方面：在领域问题层面，现有模型对狭窄路径、高空障碍物等突发风险的识别准确率不足，且难以融合多视角信息进行空间关系推理；在构建过程中，需克服模拟环境与真实场景的语义差异，通过人工标注1,200条轨迹的高危场景与地标，并利用GPT-4o生成6.9万对视觉问答数据时，需严格过滤生成内容中的模糊表述与逻辑矛盾，确保问答对在风险描述、地标价值评估等复杂任务中的准确性与可操作性。

常用场景

经典使用场景

在视觉辅助技术领域，mmWalk数据集通过融合多视角传感器数据与全景图像，为盲人与低视力群体的户外安全导航提供了关键支持。该数据集整合了步行者、导盲犬及无人机视角的同步帧序列，涵盖RGB、深度与语义分割等多模态信息，能够模拟真实环境中的复杂行走场景。其经典应用场景包括评估视觉语言模型在风险感知与路径规划任务中的表现，尤其在识别狭窄路径、不平整路面等高风险情境时展现出独特价值。

解决学术问题

该数据集致力于解决盲人导航系统中安全感知能力不足的核心学术问题。通过系统化标注8类典型极端案例与18种导航地标，mmWalk填补了现有研究在空间关系推理与多视角融合分析方面的空白。其构建的视觉问答基准mmWalkVQA包含9类任务难度，有效量化了模型在危险评估、地标导航等任务中的性能瓶颈，为开发具有场景认知能力的辅助系统提供了理论依据与验证平台。

实际应用

在实际应用层面，mmWalk为智能导盲设备与无人机协同导航系统提供了数据支撑。基于该数据集训练的模型可实时解析环境风险等级，通过多视角融合技术精准定位导航地标，例如在交叉路口识别交通信号灯或规避高空障碍物。其生成的导航建议已通过真实场景数据集验证，显著提升了盲人用户在停车场、广场等复杂区域的独立移动能力与安全保障。

数据集最近研究