“关于环境和行为的推理” (REA) 数据集
收藏arXiv2025-07-08 更新2025-07-09 收录
下载链接:
https://zoezheng126.github.io/STLLM-website/
下载链接
链接失效反馈官方服务:
资源简介:
REA数据集是一个用于评估多模态大型语言模型在空间和时间理解能力的大规模数据集。该数据集由伊利诺伊大学厄巴纳-香槟分校的研究团队开发,旨在帮助模型理解3D环境的全局结构和视频中最近发生的动作。数据集包括五个任务,分别测试模型在相对方向、相对距离、物品定位、家具使用预测和动作规划方面的能力。REA数据集通过结合3D场景表示和2D视频表示,为模型提供丰富的时空上下文信息。为了创建REA数据集,研究团队使用EPIC-KITCHENS数据集的动作标注、VISOR数据集的对象分割标注以及EPIC-FIELDS数据集的稀疏点云。数据收集流程包括两个主要组件:问答生成和点云重建。问答生成包括视频采样、3D位置估计、空间关系估计和导航动作估计。点云重建则通过将2D分割掩码投影到COLMAP点云上,计算出查询对象在3D空间中的平均位置。REA数据集旨在解决多模态大型语言模型在时空理解方面的挑战,推动模型在现实世界中的应用,如具身AI、情景感知和时空问答等。
The REA Dataset is a large-scale dataset designed for evaluating the spatial and temporal understanding capabilities of multimodal large language models. Developed by a research team from the University of Illinois Urbana-Champaign, it aims to help models comprehend the global structure of 3D environments and recently occurred actions in videos. The dataset encompasses five tasks that respectively test the model's abilities in relative orientation, relative distance, object localization, furniture usage prediction, and motion planning. The REA Dataset provides rich spatio-temporal contextual information for models by combining 3D scene representations and 2D video representations. To construct the REA Dataset, the research team utilized action annotations from the EPIC-KITCHENS Dataset, object segmentation annotations from the VISOR Dataset, and sparse point clouds from the EPIC-FIELDS Dataset. The data collection process consists of two main components: question-answer generation and point cloud reconstruction. Question-answer generation includes video sampling, 3D position estimation, spatial relationship estimation, and navigation action estimation. Point cloud reconstruction calculates the average 3D position of queried objects by projecting 2D segmentation masks onto COLMAP point clouds. The REA Dataset aims to address the challenges in spatio-temporal understanding of multimodal large language models, and promote their real-world applications such as embodied AI, context awareness, and spatio-temporal question answering.
提供机构:
伊利诺伊大学厄巴纳-香槟分校
创建时间:
2025-07-08
搜集汇总
数据集介绍

构建方式
REA数据集的构建依托于多模态大语言模型(MLLMs)在时空理解方面的需求,通过整合EPIC-KITCHENS的动作标注、VISOR的对象分割标注以及EPIC-FIELDS的稀疏点云数据,构建了一个包含五种任务的问答对数据集。具体流程包括视频片段采样、3D位置估计、空间关系计算和导航运动估计等步骤,确保了数据集的全面性和科学性。
特点
REA数据集的特点在于其强调对全局3D环境和局部时间动态的双重理解。数据集包含五种任务:相对方向、相对距离、寻找物品、家具功能预测和动作规划,每种任务均设计用于测试模型在不同时空推理方面的能力。通过结合点云和视频数据,REA提供了丰富的时空上下文信息,适用于复杂的现实世界交互场景。
使用方法
使用REA数据集时,研究人员可通过输入3D点云、视频片段和文本指令,训练或评估模型在时空推理任务上的表现。具体步骤包括加载数据集、预处理多模态输入(如点云降采样和视频帧编码)、训练模型(如采用ST-LLM架构),并通过标准指标(如CIDEr、BLEU)或基于LLM的评估方法量化模型性能。数据集的开放性和结构化设计支持灵活的研究应用。
背景与挑战
背景概述
由伊利诺伊大学厄巴纳-香槟分校Haozhen Zheng等学者于2025年提出的'关于环境和行为的推理'(REA)数据集,旨在解决多模态大语言模型(MLLMs)在时空联合理解上的核心难题。该数据集基于EPIC-KITCHENS、VISOR和EPIC-FIELDS等权威数据源构建,包含相对方向、相对距离等五大任务类型,通过融合3D点云与2D视频数据,为具身智能体的环境交互提供了首个系统性评测基准。其创新性地将全局空间表征与局部时序动态相耦合,推动了视觉-语言模型在三维场景理解与动作推理领域的交叉研究。
当前挑战
REA数据集面临双重挑战:在领域层面,需突破传统MLLMs对静态图像的单帧认知局限,解决动态视频中物体相对位置变化、动作连续性推理等时空耦合问题;在构建层面,需精确对齐稀疏点云与密集视频帧的空间坐标,克服多视角相机位姿估计误差,并通过动作间隔采样确保时序逻辑的连贯性。实验表明,现有模型在REA任务上的平均准确率仅为23.68%-30.96%,凸显了时空推理这一开放难题的复杂性。
常用场景
经典使用场景
在具身智能和情境感知领域,REA数据集通过融合3D点云场景表示与第一人称视频片段,为多模态大语言模型(MLLMs)提供了联合时空推理的基准测试平台。其经典使用场景包括厨房环境中的动作序列分析,例如根据全局空间布局和局部动作视频,回答'关闭水龙头后应如何到达烤箱'这类需同步理解环境拓扑与瞬时动作的复杂问题。数据集通过五类任务(相对方向、相对距离、物品寻找、家具功能预测、动作规划)系统评估模型对动态交互中空间关系演变的认知能力。
解决学术问题
该数据集解决了MLLMs在时空联合推理中的关键瓶颈问题:传统模型受限于静态图像训练,难以同步处理3D环境全局表征与视频流中的时序动作语义。通过引入点云重建的立体空间线索和密集动作标注的时间上下文,REA首次实现了对'空间锚定时序事件'这一认知能力的量化评估,将EPIC-KITCHENS等单模态基准扩展为时空耦合的评估体系。其实验表明,基线模型在跨任务平均准确率上仅达23.68%-30.96%,揭示了现有方法在动态场景理解中的根本性缺陷。
衍生相关工作
REA数据集催生了时空LLM(ST-LLM)等创新架构,其提出的跨模态对齐模块与3D位置编码机制被Video-3D LLM、LLaVA-3D等后续工作广泛借鉴。在理论层面,该数据集启发了对'可操作空间表征'的研究,如Zhu等人提出的LLaVA-3D通过引入动态体素化策略改进空间感知;在应用层面,Chen等人的SpatialVLM利用REA评估框架,开发了面向机器人导航的视觉语言模型。这些衍生工作共同推动了具身智能中时空推理能力的标准化进程。
以上内容由遇见数据集搜集并总结生成



