REA

github2025-07-08 更新2025-07-12 收录

下载链接：

https://github.com/zoezheng126/Spatio-Temporal-LLM

下载链接

链接失效反馈

官方服务：

资源简介：

Reasoning about Environments and Actions (REA) 数据集包含五种类型的时空推理任务：相对方向、相对距离、查找我的物品、家具功能预测和行动规划。每个QA样本由以下部分组成：一个短的自主动作视频（采样自EPIC-KITCHENS）、一个环境的3D点云（REA 3D数据）和一个问答对（位于REA_dataset下）。

The Reasoning about Environments and Actions (REA) dataset includes five types of spatiotemporal reasoning tasks: Relative Direction, Relative Distance, Find My Belongings, Furniture Function Prediction, and Action Planning. Each QA sample consists of three components: a short autonomous action video sampled from EPIC-KITCHENS, a 3D point cloud of the environment (REA 3D data), and a question-answer pair stored under the REA_dataset directory.

创建时间：

2025-06-30

原始信息汇总

数据集概述：REA (Reasoning about Environments and Actions)

数据集基本信息

名称：REA (Reasoning about Environments and Actions)
类型：多模态数据集（视频、3D点云、自然语言）
来源：基于EPIC-KITCHENS数据集构建
发布状态：已发布改进版数据集、问题-答案数据集和3D点云数据

数据集内容

数据组成：
- 短时自我中心动作视频（采样自EPIC-KITCHENS）
- 环境的3D点云（REA 3D Data）
- 问题-答案对（REA_dataset）
任务类型：
1. 相对方向（Relative Direction）
2. 相对距离（Relative Distance）
3. 寻找物品（Find My Item）
4. 家具功能预测（Furniture Affordance Prediction）
5. 动作规划（Action Planning）

数据获取与准备

3D数据下载：Google Drive链接
- 包含每个场景的重建点云
- 自我中心动作视频的相机位姿（每个片段32个均匀采样的帧）
依赖数据：
- EPIC-KITCHENS数据集（RGB视频帧）
- 下载链接：EPIC-KITCHENS官网

数据集特点

点云按场景重建而非按视频重建
重建经过人工验证和标注
提供用于生成3D点云的重建图像名称

许可信息

许可证：MIT License

搜集汇总

数据集介绍

构建方式

REA数据集构建于第一人称视角视频和3D点云数据的基础上，旨在支持对环境和动作的时空推理任务。该数据集从EPIC-KITCHENS数据集中提取短片段视频，并辅以手动重建和标注的3D点云场景数据。每个样本包含视频片段、3D点云以及对应的问答对，确保了数据的多模态特性。3D点云数据经过人工验证，以提高几何精度，同时提供重建图像名称以支持2D-LLM推理。

特点

REA数据集以其多模态融合和精细任务设计著称，涵盖相对方向、相对距离、物品寻找、家具功能预测和动作规划等五种任务。其独特之处在于将局部时间线索（视频）与全局空间场景（3D点云）相结合，为时空推理提供了丰富的数据基础。数据集中的3D点云经过人工验证，确保了场景重建的准确性，而问答对的精心设计则强化了模型对复杂环境的理解能力。

使用方法

使用REA数据集需先下载EPIC-KITCHENS的RGB视频帧和配套的3D点云数据。数据预处理包括视频帧采样和点云对齐，随后可通过提供的脚本进行模型训练和推理。评估时需指定数据集路径、预训练模型及硬件配置，支持LLaVA-Video、LLaVA-OV和Qwen2-VL等多种模型架构。数据集的多模态特性要求同时处理视频、点云和文本输入，以实现跨模态的时空推理任务。

背景与挑战

背景概述

REA（Reasoning about Environments and Actions）数据集是2025年由Haozhen Zheng等研究人员提出的一个多模态推理数据集，旨在解决具身智能领域中的时空推理问题。该数据集由伊利诺伊大学厄巴纳-香槟分校团队开发，基于EPIC-KITCHENS的自我中心视频数据，创新性地融合了3D点云与自然语言问答对，涵盖相对方向判断、物品定位、家具功能预测等五大细粒度任务。作为首个联合建模动态视频流与静态场景几何的基准，REA为多模态大语言模型的时空推理能力评估提供了标准化测试平台，推动了具身感知与决策研究的范式革新。

当前挑战

REA数据集面临的挑战主要体现在两个维度：在领域问题层面，如何实现跨模态的时空对齐是核心难点，自我中心视频的动态视角变化与点云静态表征之间存在显著鸿沟，要求模型具备将局部动作序列映射到全局场景坐标的能力；在构建过程中，精确的3D场景重建需要解决运动模糊、遮挡等计算机视觉难题，而人工标注大规模多模态问答对则面临语义一致性与空间准确性的双重校验压力。此外，数据采集受限于真实厨房环境的多样性，场景覆盖度与任务复杂度之间的平衡仍需优化。

常用场景

经典使用场景

REA数据集在空间-时间推理任务中展现了卓越的应用潜力，尤其是在结合第一人称视频与3D点云数据的多模态分析中。该数据集通过五种精细任务（如相对方向判断、物品寻找、家具功能预测等），为研究者提供了一个全面评估模型在复杂环境中进行时空推理能力的平台。其经典使用场景包括智能家居系统中的行为预测、机器人导航中的环境理解，以及增强现实应用中的交互设计。

解决学术问题

REA数据集有效解决了多模态融合中的关键学术问题，特别是在如何将局部时间线索与全局空间场景上下文相结合方面。通过引入跨模态对齐模块和位置编码技术，该数据集显著提升了模型在复杂环境中的推理性能。其意义在于推动了空间-时间推理领域的研究边界，为未来智能系统在动态环境中的决策提供了新的理论基础和技术支持。

衍生相关工作

围绕REA数据集已衍生出多项经典研究工作，包括跨模态对齐算法的优化、3D场景理解模型的改进，以及时空推理框架的创新。特别值得注意的是，该数据集推动了LLaVA-NeXT等大型语言模型在视觉-语言任务中的性能提升，并为OpenScene等3D场景重建项目提供了重要基准。这些工作共同构成了多模态人工智能研究的重要里程碑。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集

REA