Look and Tell

Name: Look and Tell
Creator: KTH皇家理工学院
Published: 2025-10-28 16:39:14
License: 暂无描述

arXiv2025-10-28 更新2025-10-29 收录

下载链接：

https://huggingface.co/datasets/annadeichler/KTH-ARIA-referential

下载链接

链接失效反馈

官方服务：

资源简介：

Look and Tell数据集是由KTH皇家理工学院创建的，用于研究在第一人称和第三人称视角下的多模态指代交流。数据集包含了25名参与者使用Meta Project Aria智能眼镜和GoPro相机记录的同步注视、语音和视频数据，共计3.67小时的记录，包括2707个丰富的注释指代表达式。该数据集旨在推动能够理解和参与情境对话的具身智能体的发展。数据集提供了对2D和3D场景表示、第一人称和第三人称视角之间进行多模态接地比较的独特测试平台，对于解决共享自主性和人机协作中的挑战至关重要。

The Look and Tell Dataset was developed by KTH Royal Institute of Technology to research multimodal referring communication under both first-person and third-person perspectives. The dataset contains synchronized gaze, speech and video data recorded by 25 participants using Meta Project Aria smart glasses and GoPro cameras, with a total of 3.67 hours of recordings including 2707 richly annotated referring expressions. This dataset aims to advance the development of embodied AI agents that can understand and engage in situated dialogues. It provides a unique testbed for multimodal grounded comparisons between 2D and 3D scene representations, as well as between first-person and third-person perspectives, which is critical for addressing challenges in shared autonomy and human-robot collaboration.

提供机构：

KTH皇家理工学院

创建时间：

2025-10-26

原始信息汇总

KTH-ARIA-referential 数据集概述

数据集基本信息

数据集名称: Gaze-Speech Analysis in Referential Communication with ARIA Headset
研究机构: KTH Royal Institute of Technology
主要语言: 英语
许可协议: CC BY-NC-ND 4.0

数据集规模与统计

总时长: 2.259小时
样本数量: 96个片段
平均片段时长: 84.7秒

数据内容与结构

参与者: 20人（2名男性，18名女性）
实验任务: 参与者记忆食谱配料和步骤，佩戴ARIA眼镜进行口头指导
数据类型:
- 眼动数据（注视跟踪）
- 语音数据（音频录音）
- 第三人称视角视频
- 文本记录（话语内容）

数据格式

音频文件（.wav）
话语文本（.txt）
第一人称视角视频（.mp4）
注视固定数据（通过Python脚本生成）

适用研究领域

指称沟通分析
注视与语音同步研究
人机交互与多模态对话系统
任务环境中的眼动追踪研究

数据采集方法

硬件设备: ARIA智能眼镜、GoPro相机
采集方式: 实时捕获参与者在描述食谱时的注视轨迹和言语表达

研究目的

探索指称沟通中注视与语音的同步模式，以及物体位置对这种同步的影响。

数据处理与分析

使用Python脚本进行时间相关性检测
提供辅助函数用于绘制注视固定点和跟踪物体

搜集汇总

数据集介绍

构建方式

在具身智能研究领域，构建能够捕捉多模态交互的数据集至关重要。Look and Tell数据集通过25名参与者在厨房环境中执行食谱回忆任务，采用Meta Aria智能眼镜与固定GoPro相机同步采集第一人称与第三人称视角数据。实验流程涵盖食谱记忆、口头指令生成及食材定位，结合3D场景重建技术，形成包含眼动、语音、双视角视频及点云数据的多模态资源库。

特点

该数据集的核心价值在于其多模态同步与双视角融合特性。通过整合眼动追踪、语音流及高分辨率视频，实现了对注视-语音同步性的毫秒级分析。2,707条标注的指代表达覆盖62.1%的食材指称与22.7%的共指现象，呈现自然交流中的指称多样性。独特的3D场景重建与2D视频对比框架，为研究空间表征对多模态 grounding 的影响提供了实验基础。

使用方法

研究者可通过分层处理流程挖掘数据集潜力：基于WhisperX的语音转录与时间戳对齐为多模态分析提供时序基准，GPT驱动的指称提取结合Molmo视觉定位模型实现语言-视觉跨模态关联。SAM2掩码传播技术生成连续帧对象分割，支持从词汇层面到动态视觉焦点的细粒度研究。该架构特别适用于开发能整合注视预测与空间推理的具身智能体。

背景与挑战

背景概述

随着具身智能研究的深入，多模态空间感知成为人机交互领域的核心挑战。2025年，瑞典皇家理工学院团队发布了Look and Tell数据集，通过Meta Aria智能眼镜与固定摄像机的协同采集，构建了包含25名参与者在厨房场景中执行食谱任务的同步眼动、语音及双视角视频数据。该数据集以3.67小时录制时长与2707条标注的指代表达为核心，首次实现了自我中心与异我中心视角下2D/3D空间表征的对比研究，为探索人类多模态协作机制提供了关键实验基准。

当前挑战

在指代表达解析领域，该数据集需解决视觉注意与语言描述的时序对齐难题，例如41.1%的案例中注视先于言语发生，这对模型跨模态推理能力提出严格要求。数据构建过程中面临双视角时空同步的技术挑战，需通过WhisperX语音分段与SAM2掩码传播实现毫米级精度对齐；同时，小尺度物体（如香料容器）的视觉定位与代词共指消解（占比22.7%）需依赖混合标注策略，凸显了自然场景多模态数据标注的复杂性。

常用场景

经典使用场景

在具身智能与人机交互研究中，Look and Tell数据集为多模态空间定位提供了关键实验平台。该数据集通过同步记录第一人称视角的注视轨迹、语音流与第三人称环境视频，构建了自然厨房场景下的指称沟通范式。研究者可基于双视角数据量化分析人类在物体指认任务中视觉注意与语言表达的时序关联，为构建具备空间认知能力的智能体奠定实证基础。

衍生相关工作

该数据集催生了多模态指称解析的新兴研究方向。以注视轨迹为时序锚点的跨模态对齐方法已被扩展至虚拟现实交互系统，其双视角标注范式启发了Ego4D等数据集的增强标注工作。基于该数据构建的基准测试推动了Molmo等视觉语言模型在细粒度物体追踪任务中的性能优化，为具身导航与人机协作提供了新范式。

数据集最近研究