Walking Awareness Dataset (WAD)
收藏arXiv2024-12-30 更新2025-01-01 收录
下载链接:
https://walkvlm2024.github.io
下载链接
链接失效反馈官方服务:
资源简介:
Walking Awareness Dataset (WAD) 是由腾讯公司微信人工智能模式识别中心创建的一个多样化、广泛且无偏见的行走感知数据集,旨在为盲人行走任务提供公平的训练和测试基准。该数据集包含来自欧洲和亚洲的12000条视频-手动注释对,涵盖了多种场景和天气条件。数据集的创建过程包括从YouTube和实地录制视频,并通过详细的注释策略对视频进行场景和响应标注。WAD数据集的应用领域主要集中在利用视觉语言模型(VLM)为视障人士提供实时、简洁且信息丰富的行走提醒,旨在解决视障人士在行走过程中面临的挑战。
Walking Awareness Dataset (WAD) was developed by the WeChat Artificial Intelligence Pattern Recognition Center of Tencent Holdings Limited. It is a diverse, extensive and unbiased walking perception dataset, designed to serve as a fair training and testing benchmark for blind walking assistance tasks. The dataset contains 12,000 video-manual annotation pairs sourced from Europe and Asia, covering a wide range of scenarios and weather conditions. The construction of the WAD dataset involves collecting videos from YouTube and conducting on-site recordings, followed by detailed annotation strategies to label the scenes and corresponding responses of the videos. The main application scenarios of the WAD dataset focus on utilizing Visual Language Models (VLMs) to provide real-time, concise and informative walking reminders for visually impaired people, with the goal of addressing the challenges encountered by visually impaired individuals during their walking journeys.
提供机构:
腾讯公司微信人工智能模式识别中心
创建时间:
2024-12-30
搜集汇总
数据集介绍

构建方式
Walking Awareness Dataset (WAD) 的构建过程涵盖了广泛的地理来源,数据主要来自欧洲和亚洲的10个不同地点。其中20%的数据由标注者录制,其余数据则从YouTube平台获取。录制过程中,六台摄像机以胸部高度进行拍摄,采用13mm、20mm和26mm的焦距,分辨率从1080p到4k不等,帧率为60fps,以增强数据的多样性。最终,数据集共收集了约13小时的步行视频。标注策略分为场景标注和响应标注两部分,场景标注包括天气条件、位置类型、交通流量等级、危险级别和场景描述,而响应标注则通过盲人步行实验确定用户所需的关键信息类型,如障碍物提醒、交叉口提醒等。
特点
WAD数据集的特点在于其多样性和广泛性,涵盖了来自多个地理位置的视频数据,确保了数据的代表性和公平性。数据集包含12,000个视频-手动标注对,标注内容详细且丰富,涵盖了场景的静态属性和动态响应。此外,数据集还提供了场景摘要、问答和提醒等多种标注类型,为模型训练提供了全面的监督信息。相比其他数据集,WAD不仅数据规模更大,还提供了视频片段而非静态图像,信息量更为丰富。每个视频片段还提取了10个关键帧,方便研究人员使用。
使用方法
WAD数据集的使用方法主要围绕盲人步行任务的模型训练和测试展开。研究人员可以利用该数据集训练视觉语言模型(VLM),以生成简洁且信息丰富的步行提醒。数据集中的视频和标注对为模型提供了丰富的训练样本,帮助模型理解场景并生成相应的提醒和问答。此外,数据集还提供了多样化的测试集,确保模型在不同场景和任务下的性能评估。通过使用WAD数据集,研究人员可以系统地评估和改进VLM在盲人步行任务中的表现,推动该领域的技术发展。
背景与挑战
背景概述
Walking Awareness Dataset (WAD) 是由腾讯微信AI模式识别中心的袁志强、张婷等研究人员于2024年发布的一个专注于视觉障碍者行走辅助的数据集。该数据集旨在通过视觉语言模型(VLM)为视觉障碍者提供实时的行走指导。WAD包含了来自欧洲和亚洲的12,000个视频-手动标注对,涵盖了多样化的场景和地理区域,为视觉障碍者行走任务提供了一个公平的训练和测试基准。该数据集的发布填补了现有研究中缺乏统一基准的空白,并推动了视觉语言模型在行走辅助领域的应用。WAD的构建不仅为相关研究提供了丰富的数据支持,还为视觉障碍者的日常生活带来了实质性的帮助。
当前挑战
WAD数据集在构建和应用过程中面临多重挑战。首先,视觉障碍者行走任务要求模型能够实时解析视频流并生成简洁且信息丰富的提醒,这对视觉语言模型的推理效率和响应冗余性提出了极高的要求。其次,现有研究大多依赖于小规模的自建数据集,缺乏统一且广泛的基准,导致模型在实际应用中的泛化能力受限。此外,数据集的构建过程中,如何确保标注的多样性和无偏性也是一个重要挑战,尤其是在不同地理区域和场景下的数据收集与标注。最后,视觉语言模型在处理视频流时,如何减少时间冗余并提高推理效率,仍然是亟待解决的技术难题。
常用场景
经典使用场景
Walking Awareness Dataset (WAD) 主要用于视觉语言模型(VLMs)在盲人行走辅助任务中的训练与测试。该数据集通过提供来自欧洲和亚洲的12,000个视频-手动标注对,为盲人行走任务提供了一个公平且多样化的基准。研究者可以利用WAD数据集来训练模型,使其能够实时解析视频流并生成简洁且信息丰富的行走提醒,从而帮助视觉障碍者安全导航。
解决学术问题
WAD数据集解决了盲人行走辅助领域中的两大关键学术问题。首先,它填补了现有研究中缺乏统一训练和测试基准的空白,提供了一个广泛且无偏的数据集,支持模型的公平评估。其次,该数据集通过引入实时视频流解析和简洁提醒生成的任务,解决了现有视觉语言模型在冗余响应和低推理效率方面的挑战,推动了该领域的技术进步。
衍生相关工作
WAD数据集的发布催生了一系列相关研究工作,特别是在视觉语言模型的应用领域。基于该数据集,研究者提出了WalkVLM模型,该模型通过链式思维进行分层规划,生成简洁且信息丰富的行走提醒,并利用时间感知的自适应预测减少提醒的时间冗余。此外,WAD数据集还为其他研究者提供了基准,推动了盲人行走辅助任务的系统化建模和优化。
以上内容由遇见数据集搜集并总结生成



