five

EgoBlind

收藏
arXiv2025-03-11 更新2025-03-13 收录
下载链接:
http://arxiv.org/abs/2503.08221v1
下载链接
链接失效反馈
资源简介:
EgoBlind是由新加坡国立大学等机构的研究人员构建的首个面向盲人的第一人称视角视频问答数据集。该数据集包含1210个记录盲人日常生活视角的视频,以及4927个由盲人直接提出或生成并验证的问题,这些问题反映了他们在各种场景下对视觉辅助的需求。数据集的构建旨在推动多模态大型语言模型在盲人第一人称视角视觉辅助方面的研究。

EgoBlind is the first first-person visual question answering (VQA) dataset tailored for blind individuals, developed by researchers from institutions including the National University of Singapore and other organizations. This dataset contains 1,210 videos recorded from the first-person perspectives of blind people during their daily routines, as well as 4,927 questions that were either directly proposed by blind individuals, or generated and validated by them. These questions reflect their needs for visual assistance across various scenarios. The construction of this dataset aims to advance research on multimodal large language models (LLMs) for visual assistance targeting the first-person visual experiences of blind individuals.
提供机构:
新加坡国立大学, 中国传媒大学, 中国科学技术大学, 合肥工业大学
创建时间:
2025-03-11
AI搜集汇总
数据集介绍
main_image_url
构建方式
EgoBlind数据集的构建方式是首先从社交媒体平台如Bilibili和TikTok中抓取由视障内容创作者提供的425个长格式的第一人称视角视频,这些视频记录了他们在旅行、烹饪、导航、社交聚会、医疗就诊等日常生活中的视觉体验。然后,将这些视频手动分割成不同的片段,删除场景转换剧烈和字幕过大的片段,最终获得1,210个平均时长为35.8秒的视频片段。接下来,通过三种方式收集问题:1)手动提取视频中视障用户直接提出的与视觉辅助相关的问题;2)使用GPT-4o模型模拟视障用户的第一人称视角生成问题,并由视障和 sighted 用户进行验证和编辑;3)向视障用户介绍视频的主要内容,邀请他们在遇到视觉情境时进行标注。收集到的视觉辅助相关的问题被分为六类:信息阅读、安全警告、导航、社交沟通、工具使用和其他资源。每个问题都提供了多个参考答案,以减轻主观评估的影响。
特点
EgoBlind数据集的特点主要体现在以下几个方面:1)视频均由视障用户从第一人称视角拍摄,真实地反映了他们在日常生活中的视觉体验;2)问题直接由视障用户提出或生成并验证,与他们的实际视觉辅助需求密切相关;3)问题被分为六类,用于评估模型在不同辅助方面的能力;4)问答任务设置为实时(时间戳限制)和开放式答案生成,以更好地与实时辅助性质相符;5)每个问题都提供了多个参考答案,以便进行有效的评估。
使用方法
EgoBlind数据集的使用方法如下:1)可以使用数据集中的视频和问题来评估和训练多模态大型语言模型(MLLMs)在第一人称视角视觉辅助方面的能力;2)可以通过分析数据集中的问题和答案来研究视障用户的实际需求,并为模型设计提供启发;3)可以使用数据集中的问题和答案来测试和比较不同MLLMs在第一人称视角视觉辅助方面的性能;4)可以通过分析数据集中的问题和答案来识别和总结现有MLLMs在第一人称视角视觉辅助方面的主要局限性,并提供改进的启发式建议。
背景与挑战
背景概述
EgoBlind数据集是一个旨在评估多模态大型语言模型(MLLMs)在为盲人提供辅助能力方面的数据集。该数据集于2025年3月由新加坡国立大学、中国传媒大学、中国科学技术大学和合肥工业大学的研究人员共同创建。EgoBlind包含了1210个视频,这些视频记录了真实盲人的日常生活,并从第一人称视角出发。此外,数据集中还包含了4927个问题,这些问题由盲人直接提出或生成并验证,以反映他们在各种情况下对视觉辅助的需求。为了减少主观评价,每个问题都提供了平均3个参考答案。使用EgoBlind,研究人员全面评估了15个领先的MLLMs,发现所有模型的表现都难以令人满意,最佳模型的准确率约为56%,远低于人类的87.4%。这项研究揭示了现有MLLMs在为盲人提供第一人称视觉辅助方面的主要局限性,并为改进提供了启发式建议。EgoBlind旨在为开发更有效的AI助手奠定基础,以增强盲人生活的独立性。
当前挑战
EgoBlind数据集面临的挑战主要包括:1)低质量视觉场景的理解:由于盲人视角的动态场景通常具有不稳定的运动、物体模糊和遮挡等特点,因此模型需要能够处理这些视觉质量较差的场景。2)实时上下文感知的用户意图推理:模型需要能够实时理解用户的意图,并根据用户的实时位置和活动来推理相关的视觉内容。3)面向辅助的答案生成:模型需要能够生成符合盲人实际需求的答案,而不是仅仅生成客观准确的答案。4)模型在识别障碍物方面的不足:模型在识别场景中的潜在障碍物方面的表现仍然不足,需要改进。5)模型在处理非现实物体问题时的谄媚现象:模型在面对盲人询问不存在物体的问题时,往往会产生错误甚至有害的答案,需要通过合成数据来进行针对性的训练。
常用场景
经典使用场景
EgoBlind数据集旨在评估和提升多模态大型语言模型(MLLMs)在第一人称视角下为盲人提供视觉辅助的能力。数据集包含1210个视频,记录了盲人用户的日常生活,以及4927个直接由盲人提出或生成并验证的问题,这些问题反映了他们在不同场景下对视觉辅助的需求。每个问题都提供了平均3个参考答案,以减轻主观评价的影响。使用EgoBlind,研究人员对15个领先的MLLMs进行了全面评估,发现所有模型都存在困难,最佳模型的准确率约为56%,远低于人类87.4%的表现。该数据集有助于推动MLLMs在盲人第一人称视角视觉辅助方面的研究。
解决学术问题
EgoBlind数据集解决了现有VQA数据集主要关注第三人称视角或通用图像和视频理解的问题,忽视了为视障人士提供视觉辅助等关键现实世界应用。该数据集特别稀缺于从第一人称视角辅助盲人的研究。EgoBlind通过收集真实盲人用户的第一人称视角视频和问题,填补了这一空白,并揭示了现有MLLMs在第一人称视角视觉辅助方面的主要局限性,为改进提供了启发式建议。此外,该数据集还揭示了MLLMs在理解用户意图、实时空间定位、时间上下文推理和识别障碍物等方面的不足。
衍生相关工作
EgoBlind数据集的发布促进了相关研究的发展,例如:开发针对盲人视觉辅助的专门MLLMs;研究如何改进MLLMs在理解用户意图、实时空间定位、时间上下文推理和识别障碍物等方面的能力;探索如何利用EgoBlind数据集进行预训练和微调,以提高MLLMs在第一人称视角视觉辅助任务上的性能。这些相关工作有助于推动MLLMs在盲人视觉辅助领域的进一步发展。
以上内容由AI搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作