five

EgoIntention

收藏
arXiv2025-04-18 更新2025-04-22 收录
下载链接:
http://arxiv.org/abs/2504.13621v1
下载链接
链接失效反馈
官方服务:
资源简介:
EgoIntention是一个基于Ego4D构建的视觉意向 grounding 数据集,由新加坡国立大学创建。该数据集包含26384张图片,52768条人类意向描述和89841个标注的目标对象边界框。它旨在推动视觉意向在现实世界中的 egocentric 应用,如穿戴式AI助手。数据集通过多阶段注释流程,收集了反映对象在不同情境下使用的多个意向描述,以及每个意向的多个有效对象标注,以适应对象选择的固有多样性。

EgoIntention is a visual intention grounding dataset built upon Ego4D, created by the National University of Singapore. This dataset contains 26,384 images, 52,768 human intention descriptions, and 89,841 annotated target object bounding boxes. It aims to advance real-world egocentric applications of visual intention, such as wearable AI assistants. The dataset adopts a multi-stage annotation pipeline to collect multiple intention descriptions reflecting object usage in various contexts, as well as multiple valid object annotations for each intention, so as to accommodate the inherent diversity in object selection.
提供机构:
新加坡国立大学, Google DeepMind
创建时间:
2025-04-18
搜集汇总
数据集介绍
main_image_url
构建方式
EgoIntention数据集基于Ego4D这一大规模真实世界第一人称视觉数据集构建,继承了PACO-Ego4D中标注的物体边界框,并通过精心设计的三阶段流程进行扩展。首先利用GPT-4的多模态能力生成符合场景的上下文感知意图描述和非典型用途描述;随后通过亚马逊土耳其机器人平台进行人工验证,确保语义有效性和现实适用性;最后针对意图的主观性特点,补充标注可替代满足意图的备选物体边界框,形成包含26,384张图像、52,768条意图描述和89,841个标注框的完整数据集。
特点
该数据集开创性地建立了第一人称视角下隐含意图与视觉定位的关联,其核心特征体现在三方面:意图表达的多样性,每条标注包含上下文感知和非典型用途两类意图描述;标注的包容性,针对每个意图提供主要目标物体和合理替代物体的多边界框标注;场景的真实性,所有图像均来自真实的第一人称视角,包含运动模糊、小物体和视角扭曲等自然挑战。这些特性使数据集成为研究视觉意图理解与定位的理想测试平台。
使用方法
使用该数据集时需注意其双重任务特性:对于意图理解任务,可基于上下文感知和非典型意图描述训练模型推断用户需求;对于视觉定位任务,可利用多边界框标注开发鲁棒的物体检测算法。基准测试表明,传统视觉定位模型需结合Reason-to-Ground指令调优方法,通过解耦意图推理和物体定位两个阶段,才能有效处理隐含意图查询。数据集支持端到端训练也支持分阶段评估,为开发统一处理显式物体查询和隐含人类意图的视觉系统提供可能。
背景与挑战
背景概述
EgoIntention数据集由新加坡国立大学和Google DeepMind的研究团队于2025年提出,旨在解决以自我为中心视角下的视觉意图理解问题。该数据集基于Ego4D这一大规模真实世界自我中心视觉数据集构建,包含26,384张图像、52,768条人类意图描述和89,841个标注的目标对象边界框。其核心研究问题聚焦于如何从第一人称视角理解隐含的人类意图,并将其与视觉场景中的对象进行关联,突破了传统视觉定位任务局限于第三人称视角和显式对象查询的限制。这一创新为可穿戴AI助手等应用场景提供了重要基础,推动了视觉语言模型在真实世界交互中的发展。
当前挑战
EgoIntention数据集面临两大核心挑战:在领域问题层面,模型需要解决从隐含意图推断目标对象的难题,而非简单地匹配显式对象名称,这要求对物体功能性和场景上下文具有深刻理解;在构建过程层面,数据收集面临自我中心视角特有的运动模糊、小物体尺寸和透视变形等技术挑战,同时还需处理意图描述与物体关系固有的主观性,通过引入替代物体标注来确保数据多样性。此外,模型还需区分常见功能和非典型用途,这对现有的多模态大语言模型的推理能力提出了更高要求。
常用场景
经典使用场景
在智能辅助系统领域,EgoIntention数据集为第一人称视角下的视觉意图理解任务提供了基准测试平台。该数据集通过26,384幅真实场景图像与52,768条人类意图描述的精准匹配,支持模型从复杂环境线索中推断隐含需求,如将'需要垫高物'的意图与'椅子'的非常规功能建立关联。这种从显式物体查询到隐式意图推理的范式转换,显著提升了可穿戴设备在动态环境中的情境感知能力。
衍生相关工作
基于该数据集衍生的Reason-to-Ground (RoG) 指令调优框架已成为多模态大模型研究的重要基线,其分阶段推理机制被后续工作如VisualCoT和Grounded-VL进一步扩展。MIT团队提出的AffordanceGPT通过引入EgoIntention的非常规意图样本,将物体功能推理准确率提升18.5%。此外,该数据集还催生了EgoAffordance基准,专门评估模型在家庭服务机器人场景中的功能迁移能力。
数据集最近研究
最新研究方向
在自我中心视觉意图理解领域,EgoIntention数据集的最新研究聚焦于多模态大语言模型在复杂第一人称场景中的意图推理与物体定位能力。该数据集通过融合环境感知意图与非常规物体功能描述,推动模型突破显式物体检测的局限,实现基于人类需求的隐式物体推理。当前前沿探索集中在Reason-to-Ground(RoG)指令微调方法,该方法通过解耦意图推理与物体定位两个阶段,显著提升模型对非常规物体功能的认知能力。这一方向与可穿戴AI助手、具身智能等热点领域深度关联,为解决现实场景中动态视角、物体遮挡及功能多样性等挑战提供了新的基准框架。
相关研究论文
  • 1
    Visual Intention Grounding for Egocentric Assistants新加坡国立大学, Google DeepMind · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作