EgoBlind|视觉辅助数据集|多模态语言模型数据集

arXiv2025-03-11 更新2025-03-13 收录

视觉辅助

多模态语言模型

下载链接：

http://arxiv.org/abs/2503.08221v1

下载链接

链接失效反馈

资源简介：

EgoBlind是由新加坡国立大学等机构的研究人员构建的首个面向盲人的第一人称视角视频问答数据集。该数据集包含1210个记录盲人日常生活视角的视频，以及4927个由盲人直接提出或生成并验证的问题，这些问题反映了他们在各种场景下对视觉辅助的需求。数据集的构建旨在推动多模态大型语言模型在盲人第一人称视角视觉辅助方面的研究。

提供机构：

新加坡国立大学, 中国传媒大学, 中国科学技术大学, 合肥工业大学

创建时间：

2025-03-11

AI搜集汇总

数据集介绍

构建方式

EgoBlind数据集的构建方式是首先从社交媒体平台如Bilibili和TikTok中抓取由视障内容创作者提供的425个长格式的第一人称视角视频，这些视频记录了他们在旅行、烹饪、导航、社交聚会、医疗就诊等日常生活中的视觉体验。然后，将这些视频手动分割成不同的片段，删除场景转换剧烈和字幕过大的片段，最终获得1,210个平均时长为35.8秒的视频片段。接下来，通过三种方式收集问题：1）手动提取视频中视障用户直接提出的与视觉辅助相关的问题；2）使用GPT-4o模型模拟视障用户的第一人称视角生成问题，并由视障和 sighted 用户进行验证和编辑；3）向视障用户介绍视频的主要内容，邀请他们在遇到视觉情境时进行标注。收集到的视觉辅助相关的问题被分为六类：信息阅读、安全警告、导航、社交沟通、工具使用和其他资源。每个问题都提供了多个参考答案，以减轻主观评估的影响。

特点

EgoBlind数据集的特点主要体现在以下几个方面：1）视频均由视障用户从第一人称视角拍摄，真实地反映了他们在日常生活中的视觉体验；2）问题直接由视障用户提出或生成并验证，与他们的实际视觉辅助需求密切相关；3）问题被分为六类，用于评估模型在不同辅助方面的能力；4）问答任务设置为实时（时间戳限制）和开放式答案生成，以更好地与实时辅助性质相符；5）每个问题都提供了多个参考答案，以便进行有效的评估。

使用方法

EgoBlind数据集的使用方法如下：1）可以使用数据集中的视频和问题来评估和训练多模态大型语言模型（MLLMs）在第一人称视角视觉辅助方面的能力；2）可以通过分析数据集中的问题和答案来研究视障用户的实际需求，并为模型设计提供启发；3）可以使用数据集中的问题和答案来测试和比较不同MLLMs在第一人称视角视觉辅助方面的性能；4）可以通过分析数据集中的问题和答案来识别和总结现有MLLMs在第一人称视角视觉辅助方面的主要局限性，并提供改进的启发式建议。

背景与挑战

背景概述

EgoBlind数据集是一个旨在评估多模态大型语言模型（MLLMs）在为盲人提供辅助能力方面的数据集。该数据集于2025年3月由新加坡国立大学、中国传媒大学、中国科学技术大学和合肥工业大学的研究人员共同创建。EgoBlind包含了1210个视频，这些视频记录了真实盲人的日常生活，并从第一人称视角出发。此外，数据集中还包含了4927个问题，这些问题由盲人直接提出或生成并验证，以反映他们在各种情况下对视觉辅助的需求。为了减少主观评价，每个问题都提供了平均3个参考答案。使用EgoBlind，研究人员全面评估了15个领先的MLLMs，发现所有模型的表现都难以令人满意，最佳模型的准确率约为56%，远低于人类的87.4%。这项研究揭示了现有MLLMs在为盲人提供第一人称视觉辅助方面的主要局限性，并为改进提供了启发式建议。EgoBlind旨在为开发更有效的AI助手奠定基础，以增强盲人生活的独立性。

当前挑战

EgoBlind数据集面临的挑战主要包括：1)低质量视觉场景的理解：由于盲人视角的动态场景通常具有不稳定的运动、物体模糊和遮挡等特点，因此模型需要能够处理这些视觉质量较差的场景。2)实时上下文感知的用户意图推理：模型需要能够实时理解用户的意图，并根据用户的实时位置和活动来推理相关的视觉内容。3)面向辅助的答案生成：模型需要能够生成符合盲人实际需求的答案，而不是仅仅生成客观准确的答案。4)模型在识别障碍物方面的不足：模型在识别场景中的潜在障碍物方面的表现仍然不足，需要改进。5)模型在处理非现实物体问题时的谄媚现象：模型在面对盲人询问不存在物体的问题时，往往会产生错误甚至有害的答案，需要通过合成数据来进行针对性的训练。

常用场景

经典使用场景

EgoBlind数据集旨在评估和提升多模态大型语言模型（MLLMs）在第一人称视角下为盲人提供视觉辅助的能力。数据集包含1210个视频，记录了盲人用户的日常生活，以及4927个直接由盲人提出或生成并验证的问题，这些问题反映了他们在不同场景下对视觉辅助的需求。每个问题都提供了平均3个参考答案，以减轻主观评价的影响。使用EgoBlind，研究人员对15个领先的MLLMs进行了全面评估，发现所有模型都存在困难，最佳模型的准确率约为56%，远低于人类87.4%的表现。该数据集有助于推动MLLMs在盲人第一人称视角视觉辅助方面的研究。

解决学术问题

EgoBlind数据集解决了现有VQA数据集主要关注第三人称视角或通用图像和视频理解的问题，忽视了为视障人士提供视觉辅助等关键现实世界应用。该数据集特别稀缺于从第一人称视角辅助盲人的研究。EgoBlind通过收集真实盲人用户的第一人称视角视频和问题，填补了这一空白，并揭示了现有MLLMs在第一人称视角视觉辅助方面的主要局限性，为改进提供了启发式建议。此外，该数据集还揭示了MLLMs在理解用户意图、实时空间定位、时间上下文推理和识别障碍物等方面的不足。

衍生相关工作

EgoBlind数据集的发布促进了相关研究的发展，例如：开发针对盲人视觉辅助的专门MLLMs；研究如何改进MLLMs在理解用户意图、实时空间定位、时间上下文推理和识别障碍物等方面的能力；探索如何利用EgoBlind数据集进行预训练和微调，以提高MLLMs在第一人称视角视觉辅助任务上的性能。这些相关工作有助于推动MLLMs在盲人视觉辅助领域的进一步发展。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源，是提供人类基本需求和基本社会保障的先决条件；也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础，兼具学术、经济、社会等多种价值。本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分（含胆固醇）数据，657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心收录

UIEB, U45, LSUI

本仓库提供了水下图像增强方法和数据集的实现，包括UIEB、U45和LSUI等数据集，用于支持水下图像增强的研究和开发。

github 收录

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集，包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素，标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录

LEVIR-CD

LEVIR-CD 是一个新的大规模遥感建筑变化检测数据集。引入的数据集将成为评估变化检测 (CD) 算法的新基准，尤其是基于深度学习的算法。 LEVIR-CD 由 637 个非常高分辨率（VHR，0.5m/像素）Google Earth (GE) 图像块对组成，大小为 1024 × 1024 像素。这些时间跨度为 5 到 14 年的双时相图像具有显着的土地利用变化，尤其是建筑增长。 LEVIR-CD涵盖别墅住宅、高层公寓、小型车库和大型仓库等各类建筑。在这里，我们关注与建筑相关的变化，包括建筑增长（从土壤/草地/硬化地面或在建建筑到新建筑区域的变化）和建筑衰退。这些双时相图像由遥感图像解释专家使用二进制标签（1 表示变化，0 表示不变）进行注释。我们数据集中的每个样本都由一个注释器进行注释，然后由另一个注释器进行双重检查以产生高质量的注释。完整注释的 LEVIR-CD 总共包含 31,333 个单独的变更构建实例。

OpenDataLab 收录

CliMedBench

CliMedBench是一个大规模的中文医疗大语言模型评估基准，由华东师范大学等机构创建。该数据集包含33,735个问题，涵盖14个核心临床场景，主要来源于顶级三级医院的真实电子健康记录和考试练习。数据集的创建过程包括专家指导的数据选择和多轮质量控制，确保数据的真实性和可靠性。CliMedBench旨在评估和提升医疗大语言模型在临床决策支持、诊断和治疗建议等方面的能力，解决医疗领域中模型性能评估的不足问题。

arXiv 收录