five

EgoBlind|视觉辅助数据集|多模态语言模型数据集

收藏
arXiv2025-03-11 更新2025-03-13 收录
视觉辅助
多模态语言模型
下载链接:
http://arxiv.org/abs/2503.08221v1
下载链接
链接失效反馈
资源简介:
EgoBlind是由新加坡国立大学等机构的研究人员构建的首个面向盲人的第一人称视角视频问答数据集。该数据集包含1210个记录盲人日常生活视角的视频,以及4927个由盲人直接提出或生成并验证的问题,这些问题反映了他们在各种场景下对视觉辅助的需求。数据集的构建旨在推动多模态大型语言模型在盲人第一人称视角视觉辅助方面的研究。
提供机构:
新加坡国立大学, 中国传媒大学, 中国科学技术大学, 合肥工业大学
创建时间:
2025-03-11
AI搜集汇总
数据集介绍
main_image_url
构建方式
EgoBlind数据集的构建方式是首先从社交媒体平台如Bilibili和TikTok中抓取由视障内容创作者提供的425个长格式的第一人称视角视频,这些视频记录了他们在旅行、烹饪、导航、社交聚会、医疗就诊等日常生活中的视觉体验。然后,将这些视频手动分割成不同的片段,删除场景转换剧烈和字幕过大的片段,最终获得1,210个平均时长为35.8秒的视频片段。接下来,通过三种方式收集问题:1)手动提取视频中视障用户直接提出的与视觉辅助相关的问题;2)使用GPT-4o模型模拟视障用户的第一人称视角生成问题,并由视障和 sighted 用户进行验证和编辑;3)向视障用户介绍视频的主要内容,邀请他们在遇到视觉情境时进行标注。收集到的视觉辅助相关的问题被分为六类:信息阅读、安全警告、导航、社交沟通、工具使用和其他资源。每个问题都提供了多个参考答案,以减轻主观评估的影响。
特点
EgoBlind数据集的特点主要体现在以下几个方面:1)视频均由视障用户从第一人称视角拍摄,真实地反映了他们在日常生活中的视觉体验;2)问题直接由视障用户提出或生成并验证,与他们的实际视觉辅助需求密切相关;3)问题被分为六类,用于评估模型在不同辅助方面的能力;4)问答任务设置为实时(时间戳限制)和开放式答案生成,以更好地与实时辅助性质相符;5)每个问题都提供了多个参考答案,以便进行有效的评估。
使用方法
EgoBlind数据集的使用方法如下:1)可以使用数据集中的视频和问题来评估和训练多模态大型语言模型(MLLMs)在第一人称视角视觉辅助方面的能力;2)可以通过分析数据集中的问题和答案来研究视障用户的实际需求,并为模型设计提供启发;3)可以使用数据集中的问题和答案来测试和比较不同MLLMs在第一人称视角视觉辅助方面的性能;4)可以通过分析数据集中的问题和答案来识别和总结现有MLLMs在第一人称视角视觉辅助方面的主要局限性,并提供改进的启发式建议。
背景与挑战
背景概述
EgoBlind数据集是一个旨在评估多模态大型语言模型(MLLMs)在为盲人提供辅助能力方面的数据集。该数据集于2025年3月由新加坡国立大学、中国传媒大学、中国科学技术大学和合肥工业大学的研究人员共同创建。EgoBlind包含了1210个视频,这些视频记录了真实盲人的日常生活,并从第一人称视角出发。此外,数据集中还包含了4927个问题,这些问题由盲人直接提出或生成并验证,以反映他们在各种情况下对视觉辅助的需求。为了减少主观评价,每个问题都提供了平均3个参考答案。使用EgoBlind,研究人员全面评估了15个领先的MLLMs,发现所有模型的表现都难以令人满意,最佳模型的准确率约为56%,远低于人类的87.4%。这项研究揭示了现有MLLMs在为盲人提供第一人称视觉辅助方面的主要局限性,并为改进提供了启发式建议。EgoBlind旨在为开发更有效的AI助手奠定基础,以增强盲人生活的独立性。
当前挑战
EgoBlind数据集面临的挑战主要包括:1)低质量视觉场景的理解:由于盲人视角的动态场景通常具有不稳定的运动、物体模糊和遮挡等特点,因此模型需要能够处理这些视觉质量较差的场景。2)实时上下文感知的用户意图推理:模型需要能够实时理解用户的意图,并根据用户的实时位置和活动来推理相关的视觉内容。3)面向辅助的答案生成:模型需要能够生成符合盲人实际需求的答案,而不是仅仅生成客观准确的答案。4)模型在识别障碍物方面的不足:模型在识别场景中的潜在障碍物方面的表现仍然不足,需要改进。5)模型在处理非现实物体问题时的谄媚现象:模型在面对盲人询问不存在物体的问题时,往往会产生错误甚至有害的答案,需要通过合成数据来进行针对性的训练。
常用场景
经典使用场景
EgoBlind数据集旨在评估和提升多模态大型语言模型(MLLMs)在第一人称视角下为盲人提供视觉辅助的能力。数据集包含1210个视频,记录了盲人用户的日常生活,以及4927个直接由盲人提出或生成并验证的问题,这些问题反映了他们在不同场景下对视觉辅助的需求。每个问题都提供了平均3个参考答案,以减轻主观评价的影响。使用EgoBlind,研究人员对15个领先的MLLMs进行了全面评估,发现所有模型都存在困难,最佳模型的准确率约为56%,远低于人类87.4%的表现。该数据集有助于推动MLLMs在盲人第一人称视角视觉辅助方面的研究。
解决学术问题
EgoBlind数据集解决了现有VQA数据集主要关注第三人称视角或通用图像和视频理解的问题,忽视了为视障人士提供视觉辅助等关键现实世界应用。该数据集特别稀缺于从第一人称视角辅助盲人的研究。EgoBlind通过收集真实盲人用户的第一人称视角视频和问题,填补了这一空白,并揭示了现有MLLMs在第一人称视角视觉辅助方面的主要局限性,为改进提供了启发式建议。此外,该数据集还揭示了MLLMs在理解用户意图、实时空间定位、时间上下文推理和识别障碍物等方面的不足。
衍生相关工作
EgoBlind数据集的发布促进了相关研究的发展,例如:开发针对盲人视觉辅助的专门MLLMs;研究如何改进MLLMs在理解用户意图、实时空间定位、时间上下文推理和识别障碍物等方面的能力;探索如何利用EgoBlind数据集进行预训练和微调,以提高MLLMs在第一人称视角视觉辅助任务上的性能。这些相关工作有助于推动MLLMs在盲人视觉辅助领域的进一步发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国区域地面气象要素驱动数据集 v2.0(1951-2020)

中国区域地面气象要素驱动数据集(China Meteorological Forcing Data,以下简称 CMFD)是为支撑中国区域陆面、水文、生态等领域研究而研发的一套高精度、高分辨率、长时间序列数据产品。本页面发布的 CMFD 2.0 包含了近地面气温、气压、比湿、全风速、向下短波辐射通量、向下长波辐射通量、降水率等气象要素,时间分辨率为 3 小时,水平空间分辨率为 0.1°,时间长度为 70 年(1951~2020 年),覆盖了 70°E~140°E,15°N~55°N 空间范围内的陆地区域。CMFD 2.0 融合了欧洲中期天气预报中心 ERA5 再分析数据与气象台站观测数据,并在辐射、降水数据产品中集成了采用人工智能技术制作的 ISCCP-ITP-CNN 和 TPHiPr 数据产品,其数据精度较 CMFD 的上一代产品有显著提升。 CMFD 历经十余年的发展,其间发布了多个重要版本。2019 年发布的 CMFD 1.6 是完全采用传统数据融合技术制作的最后一个 CMFD 版本,而本次发布的 CMFD 2.0 则是 CMFD 转向人工智能技术制作的首个版本。此版本与 1.6 版具有相同的时空分辨率和基础变量集,但在其它诸多方面存在大幅改进。除集成了采用人工智能技术制作的辐射和降水数据外,在制作 CMFD 2.0 的过程中,研发团队尽可能采用单一来源的再分析数据作为输入并引入气象台站迁址信息,显著缓解了 CMFD 1.6 中因多源数据拼接和气象台站迁址而产生的虚假气候突变。同时,CMFD 2.0 数据的时间长度从 CMFD 1.6 的 40 年大幅扩展到了 70 年,并将继续向后延伸。CMFD 2.0 的网格空间范围虽然与 CMFD 1.6 相同,但其有效数据扩展到了中国之外,能够更好地支持跨境区域研究。为方便用户使用,CMFD 2.0 还在基础变量集之外提供了若干衍生变量,包括近地面相对湿度、雨雪分离降水产品等。此外,CMFD 2.0 摒弃了 CMFD 1.6 中通过 scale_factor 和 add_offset 参数将实型数据化为整型数据的压缩技术,转而直接将实型数据压缩存储于 NetCDF4 格式文件中,从而消除了用户使用数据时进行解压换算的困扰。 本数据集原定版本号为 1.7,但鉴于本数据集从输入数据到研制技术都较上一代数据产品有了大幅的改变,故将其版本号重新定义为 2.0。CMFD 2.0 的数据内容与此前宣传的 CMFD 1.7 基本一致,仅对 1983 年 7 月以后的向下短/长波辐射通量数据进行了更新,以修正其长期趋势存在的问题。2021 年至 2024 年的 CMFD 数据正在制作中,计划于 2025 年上半年发布,从而使 CMFD 2.0 延伸至 2024 年底。

国家青藏高原科学数据中心 收录

Wind Turbine Data

该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。

www.kaggle.com 收录

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

DIV2K

DIV2K数据集分为: 列车数据: 从800高清高分辨率图像开始,我们获得相应的低分辨率图像,并为2、3和4个降尺度因子提供高分辨率和低分辨率图像 验证数据: 100高清晰度高分辨率图像用于生成低分辨率对应图像,低分辨率从挑战开始提供,并用于参与者从验证服务器获得在线反馈; 当挑战的最后阶段开始时,高分辨率图像将被释放。 测试数据: 100多样的图像用于生成低分辨率的相应图像; 参与者将在最终评估阶段开始时收到低分辨率图像,并在挑战结束并确定获胜者后宣布结果。

OpenDataLab 收录

基于站点观测的中国1km土壤湿度日尺度数据集(2000-2022)

本研究提供了中国范围1km高质量的土壤湿度数据集-SMCI1.0(Soil Moisture of China by in situ data, version 1.0),SMCI1.0是包含2000-2022年、日尺度、以10厘米为间隔10层深度(10-100cm)的高时空分辨率土壤湿度,数据单位为0.001m³/m³,缺失值为-999,投影为WGS1984。该数据集是以中国气象局提供的1,648个站点观测10层土壤湿度作为基准,使用ERA5_Land气象强迫数据、叶面积指数(LAI)、土地覆盖类型(Landtypes)、地形(DEM)和土壤特性(Soil properties)作为协变量,通过机器学习方式获得。本研究进行了两组实验以验证SMCI1.0的精度,时间尺度上:ubRMSE为0.041-0.052,R为0.883-0.919;空间尺度上:ubRMSE为0.045-0.051,R为0.866-0.893。 由于SMCI1.0是基于实地观测的土壤湿度,它可以作为现有基于模型和卫星数据集的有效补充。该数据产品可用于各种水文、气象、生态分析和建模,尤其在需要高质量、高分辨率土壤湿度的应用上至关重要。有关数据集的引用及详细描述,请阅读说明文档。为便于使用,本研究提供了两种不同分辨率的版本:30 秒(~1km)和0.1度(~9km)。

国家青藏高原科学数据中心 收录