VisAssistDaily
收藏arXiv2025-05-07 更新2025-05-09 收录
下载链接:
https://arxiv.org/pdf/2505.04488v1
下载链接
链接失效反馈官方服务:
资源简介:
VisAssistDaily数据集是香港科技大学(广州)的研究团队为评估实时视频语言模型在辅助视障人士完成日常活动方面的有效性而构建的基准数据集。数据集涵盖了视障人士的辅助任务三大类别:基本技能、家庭生活任务和社会生活任务。这些任务包括方向判断、引导行走、独立行走、手杖技巧、家务、休闲和娱乐、道路行走、交通和到达目的地等。数据集的创建旨在为视障人士提供更有效的智能辅助,解决他们在动态和复杂环境中的实时感知需求。
The VisAssistDaily dataset is a benchmark developed by the research team at The Hong Kong University of Science and Technology (Guangzhou) to evaluate the efficacy of real-time video-language models in assisting visually impaired individuals with daily activities. The dataset encompasses three categories of assistive tasks for visually impaired people: basic skills, household life tasks, and social life tasks. These tasks include direction determination, guided walking, independent ambulation, cane handling skills, housework, leisure and recreation, road traversal, traffic management, and destination arrival, among others. This dataset is designed to provide more effective intelligent assistance for visually impaired individuals, addressing their real-time perceptual requirements in dynamic and complex environments.
提供机构:
香港科技大学(广州)
创建时间:
2025-05-07
搜集汇总
数据集介绍

构建方式
VisAssistDaily数据集的构建基于先前建立的评估标准和与视觉障碍志愿者的深入合作。研究团队将评估维度划分为三大模块:基本技能、家庭生活任务和社交生活任务。每个任务都设计了相应的测试场景和完成目标,确保覆盖视觉障碍者在日常活动中可能遇到的各种情境。数据采集采用双设备录制方案,使用iPhone 13 Pro Max进行第一人称视角记录,同时通过DJI Action 4稳定器捕捉第三人称视角视频,以保证数据的全面性和可靠性。
使用方法
使用VisAssistDaily数据集时,研究者可通过四个核心指标系统评估视频大语言模型的性能:任务成功率(TSR)衡量模型帮助用户完成目标任务的效能;平均提示成本(APC)反映交互效率;平均响应延迟(ARL)评估系统实时性;语言一致性(LC)检测多语言处理能力。评估过程建议采用盲测设计,由佩戴眼罩的测试者模拟视觉障碍情境进行操作,以确保结果客观性。数据集支持对GPT-4o、Zhipu和VITA-1.5等主流视频大语言模型的横向对比研究。
背景与挑战
背景概述
VisAssistDaily数据集由香港科技大学(广州)的研究团队于2025年创建,旨在系统评估实时视频大语言模型(VideoLLMs)在辅助视觉障碍人士日常活动中的实际效果。该数据集聚焦于动态复杂环境下的实时感知需求,覆盖基础技能、家庭生活任务和社交生活任务三大类辅助场景,填补了现有技术主要关注静态内容而忽视连续环境理解的空白。作为首个针对视觉障碍辅助任务的标准化评测基准,其多语言评估框架和细粒度任务设计为跨模态智能辅助系统的研发提供了重要参考依据。
当前挑战
该数据集面临的核心挑战体现在两个维度:在领域问题层面,需解决动态环境中实时视频理解的时序一致性难题,包括复杂空间布局解析、突发障碍物预警等安全关键场景;在构建过程中,需克服多模态数据标注的复杂性,如视频片段中危险等级的主观判定、跨场景任务泛化性验证等。特别值得注意的是,模型需平衡响应速度与准确性,在有限计算资源下实现毫秒级延迟的实时交互,同时避免因环境光线变化、噪声干扰等因素导致的性能波动。
常用场景
经典使用场景
VisAssistDaily数据集在视觉辅助技术领域具有广泛的应用,特别是在帮助视障人士完成日常活动方面。该数据集通过覆盖基本技能、家庭生活任务和社交生活任务三大类任务,为视频大语言模型(VideoLLMs)提供了全面的评估基准。例如,在基本技能模块中,模型需要协助用户完成方向判断、引导行走、独立行走和手杖使用等任务,这些场景模拟了视障人士在现实生活中的常见需求。通过这种方式,VisAssistDaily为研究人员提供了一个标准化的测试平台,用于评估模型在复杂动态环境中的实时感知能力。
解决学术问题
VisAssistDaily数据集解决了视觉辅助技术领域中的多个关键学术问题。首先,它填补了现有研究中动态环境实时感知的空白,通过视频输入而非静态图像,使模型能够提供连贯且时间一致的环境理解。其次,数据集的多语言支持(英语和中文)为跨语言模型评估提供了基础,揭示了模型在语言一致性方面的表现差异。此外,数据集还通过用户研究和基准测试,揭示了当前VideoLLMs在复杂环境中的性能缺陷,如低光环境适应性差、细粒度物体识别不足等问题,为未来研究指明了改进方向。
实际应用
VisAssistDaily数据集的实际应用场景主要集中在视障人士的日常生活辅助中。例如,在家庭环境中,模型可以帮助用户识别物体位置、阅读印刷书籍;在户外场景中,模型能够提供道路行走的实时导航、交通工具体验以及目的地到达的引导。这些功能显著提升了视障人士的独立生活能力。此外,数据集衍生的SafeVid模块进一步扩展了应用范围,通过主动感知环境风险(如障碍物或危险物体),为视障人士提供安全预警,从而降低意外伤害的风险。这种技术在实际生活中的应用,不仅提高了用户的生活质量,还为智能辅助设备的开发提供了重要参考。
数据集最近研究
最新研究方向
近年来,VisAssistDaily数据集在视觉辅助技术领域的研究方向主要集中在实时视频理解与动态环境感知的结合上。随着全球视觉障碍人群数量的增加,如何利用基于视频的大型语言模型(VideoLLMs)提供连续、一致的动态环境理解成为研究热点。前沿研究聚焦于提升模型在复杂场景下的任务成功率,如基础技能训练、家庭生活任务及社交生活任务,同时探索多语言支持下的交互一致性。此外,针对模型在动态环境中风险感知的不足,研究者构建了SafeVid数据集,通过微调模型实现了环境风险的主动预警,准确率提升至62.24%。这一进展不仅填补了现有技术在实时感知上的空白,也为未来智能辅助系统的开发提供了重要参考。
相关研究论文
- 1"I Can See Forever!": Evaluating Real-time VideoLLMs for Assisting Individuals with Visual Impairments香港科技大学(广州) · 2025年
以上内容由遇见数据集搜集并总结生成



