five

Look and Tell

收藏
arXiv2025-10-28 更新2025-10-29 收录
下载链接:
https://huggingface.co/datasets/annadeichler/KTH-ARIA-referential
下载链接
链接失效反馈
官方服务:
资源简介:
Look and Tell数据集是由KTH皇家理工学院创建的,用于研究在第一人称和第三人称视角下的多模态指代交流。数据集包含了25名参与者使用Meta Project Aria智能眼镜和GoPro相机记录的同步注视、语音和视频数据,共计3.67小时的记录,包括2707个丰富的注释指代表达式。该数据集旨在推动能够理解和参与情境对话的具身智能体的发展。数据集提供了对2D和3D场景表示、第一人称和第三人称视角之间进行多模态接地比较的独特测试平台,对于解决共享自主性和人机协作中的挑战至关重要。

The Look and Tell Dataset was developed by KTH Royal Institute of Technology to research multimodal referring communication under both first-person and third-person perspectives. The dataset contains synchronized gaze, speech and video data recorded by 25 participants using Meta Project Aria smart glasses and GoPro cameras, with a total of 3.67 hours of recordings including 2707 richly annotated referring expressions. This dataset aims to advance the development of embodied AI agents that can understand and engage in situated dialogues. It provides a unique testbed for multimodal grounded comparisons between 2D and 3D scene representations, as well as between first-person and third-person perspectives, which is critical for addressing challenges in shared autonomy and human-robot collaboration.
提供机构:
KTH皇家理工学院
创建时间:
2025-10-26
原始信息汇总

KTH-ARIA-referential 数据集概述

数据集基本信息

  • 数据集名称: Gaze-Speech Analysis in Referential Communication with ARIA Headset
  • 研究机构: KTH Royal Institute of Technology
  • 主要语言: 英语
  • 许可协议: CC BY-NC-ND 4.0

数据集规模与统计

  • 总时长: 2.259小时
  • 样本数量: 96个片段
  • 平均片段时长: 84.7秒

数据内容与结构

  • 参与者: 20人(2名男性,18名女性)
  • 实验任务: 参与者记忆食谱配料和步骤,佩戴ARIA眼镜进行口头指导
  • 数据类型:
    • 眼动数据(注视跟踪)
    • 语音数据(音频录音)
    • 第三人称视角视频
    • 文本记录(话语内容)

数据格式

  • 音频文件(.wav)
  • 话语文本(.txt)
  • 第一人称视角视频(.mp4)
  • 注视固定数据(通过Python脚本生成)

适用研究领域

  • 指称沟通分析
  • 注视与语音同步研究
  • 人机交互与多模态对话系统
  • 任务环境中的眼动追踪研究

数据采集方法

  • 硬件设备: ARIA智能眼镜、GoPro相机
  • 采集方式: 实时捕获参与者在描述食谱时的注视轨迹和言语表达

研究目的

探索指称沟通中注视与语音的同步模式,以及物体位置对这种同步的影响。

数据处理与分析

  • 使用Python脚本进行时间相关性检测
  • 提供辅助函数用于绘制注视固定点和跟踪物体
搜集汇总
数据集介绍
main_image_url
构建方式
在具身智能研究领域,构建能够捕捉多模态交互的数据集至关重要。Look and Tell数据集通过25名参与者在厨房环境中执行食谱回忆任务,采用Meta Aria智能眼镜与固定GoPro相机同步采集第一人称与第三人称视角数据。实验流程涵盖食谱记忆、口头指令生成及食材定位,结合3D场景重建技术,形成包含眼动、语音、双视角视频及点云数据的多模态资源库。
特点
该数据集的核心价值在于其多模态同步与双视角融合特性。通过整合眼动追踪、语音流及高分辨率视频,实现了对注视-语音同步性的毫秒级分析。2,707条标注的指代表达覆盖62.1%的食材指称与22.7%的共指现象,呈现自然交流中的指称多样性。独特的3D场景重建与2D视频对比框架,为研究空间表征对多模态 grounding 的影响提供了实验基础。
使用方法
研究者可通过分层处理流程挖掘数据集潜力:基于WhisperX的语音转录与时间戳对齐为多模态分析提供时序基准,GPT驱动的指称提取结合Molmo视觉定位模型实现语言-视觉跨模态关联。SAM2掩码传播技术生成连续帧对象分割,支持从词汇层面到动态视觉焦点的细粒度研究。该架构特别适用于开发能整合注视预测与空间推理的具身智能体。
背景与挑战
背景概述
随着具身智能研究的深入,多模态空间感知成为人机交互领域的核心挑战。2025年,瑞典皇家理工学院团队发布了Look and Tell数据集,通过Meta Aria智能眼镜与固定摄像机的协同采集,构建了包含25名参与者在厨房场景中执行食谱任务的同步眼动、语音及双视角视频数据。该数据集以3.67小时录制时长与2707条标注的指代表达为核心,首次实现了自我中心与异我中心视角下2D/3D空间表征的对比研究,为探索人类多模态协作机制提供了关键实验基准。
当前挑战
在指代表达解析领域,该数据集需解决视觉注意与语言描述的时序对齐难题,例如41.1%的案例中注视先于言语发生,这对模型跨模态推理能力提出严格要求。数据构建过程中面临双视角时空同步的技术挑战,需通过WhisperX语音分段与SAM2掩码传播实现毫米级精度对齐;同时,小尺度物体(如香料容器)的视觉定位与代词共指消解(占比22.7%)需依赖混合标注策略,凸显了自然场景多模态数据标注的复杂性。
常用场景
经典使用场景
在具身智能与人机交互研究中,Look and Tell数据集为多模态空间定位提供了关键实验平台。该数据集通过同步记录第一人称视角的注视轨迹、语音流与第三人称环境视频,构建了自然厨房场景下的指称沟通范式。研究者可基于双视角数据量化分析人类在物体指认任务中视觉注意与语言表达的时序关联,为构建具备空间认知能力的智能体奠定实证基础。
衍生相关工作
该数据集催生了多模态指称解析的新兴研究方向。以注视轨迹为时序锚点的跨模态对齐方法已被扩展至虚拟现实交互系统,其双视角标注范式启发了Ego4D等数据集的增强标注工作。基于该数据构建的基准测试推动了Molmo等视觉语言模型在细粒度物体追踪任务中的性能优化,为具身导航与人机协作提供了新范式。
数据集最近研究
最新研究方向
在具身智能与人机交互领域,Look and Tell数据集通过融合第一人称与第三人称视角,为多模态空间基础研究开辟了新路径。当前研究聚焦于探索视线、语音与手势在自然指代任务中的协同机制,尤其关注2D与3D场景表征对多模态基础性能的影响。该数据集通过同步记录厨房环境中参与者的视线轨迹与语音指令,并结合三维场景重建技术,为构建能够理解人类空间认知的具身智能体提供了关键数据支撑。相关研究正逐步揭示视线作为预测性线索在指代消解中的作用,同时推动跨视角空间知识整合模型的创新,这一进展对提升服务机器人情境理解能力具有重要意义。
相关研究论文
  • 1
    Look and Tell: A Dataset for Multimodal Grounding Across Egocentric and Exocentric ViewsKTH皇家理工学院 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作