Long-term Active EQA (LA-EQA) Benchmark

github2025-09-28 更新2025-09-29 收录

下载链接：

https://github.com/mind-palace-laeqa/benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

LA-EQA基准测试用于评估智能体在数天到数月时间内理解环境并跟踪环境变化的能力。该数据集包含问题集和场景文件，支持长期主动具身问答任务的研究

The LA-EQA benchmark is designed to evaluate the capability of AI Agents to understand their environment and track environmental changes over periods ranging from days to months. This dataset includes question sets and scene files, supporting research on long-term active embodied question answering tasks.

创建时间：

2025-09-20

原始信息汇总

长期主动具身问答基准数据集概述

数据集基本信息

数据集名称: 长期主动具身问答基准 (Long-term Active EQA Benchmark)
任务类型: 长期主动具身问答 (LA-EQA)
核心目标: 评估智能体在数天至数月时间跨度内理解环境变化的能力

数据集内容

问题集

文件位置: la_eqa_benchmark/eqa_questions.json
内容: 包含长期主动具身问答的问题集合

场景文件

存储位置: Google Drive
下载地址: https://drive.google.com/file/d/1lNcNgpzr9SnJR1ye7vBXpWeAO-YwD14B/view?usp=sharing
文件大小: 约6 GB

数据集特点

时间跨度: 覆盖数天至数月的长期环境变化
任务复杂度: 要求智能体结合过去经验、当前观察和未来可能性进行推理
环境多样性: 包含流行模拟环境和实际工业场景

引用格式

tex @inproceedings{ginting2025laeqa, author={ Muhammad Fadhil Ginting, Dong-Ki Kim, Xiangyun Meng, Andrzej Reinke, Bandi Jai Krishna, Navid Kayhani, Oriana Peltzer, David D. Fan, Amirreza Shaban, Sung-Kyun Kim, Mykel J. Kochenderfer, Ali-akbar Agha-Mohammadi, Shayegan Omidshafiei}, title={{Enter the Mind Palace: Reasoning and Planning for Long-term Active Embodied Question Answering}}, booktitle={{Conference on Robot Learning (CoRL)}}, year={2025}, }

搜集汇总

数据集介绍

构建方式

在机器人长期操作研究领域，LA-EQA基准测试通过构建多模态场景档案与时间锚点问题集实现数据集成。该数据集采集自真实工业场景与主流仿真环境，将连续数月至数日的环境变化编码为基于场景图的世界实例。每个 episodic 经验均包含空间拓扑关系、物体状态演变及事件时间戳，通过结构化存储机制形成可追溯的环境记忆链。数据标注采用时空双重验证策略，确保问题答案与具体时间窗口及空间坐标严格对应。

使用方法

研究者可通过场景文件加载与问题集解析启动评估流程。基准测试提供标准化接口连接感知模块与决策引擎，支持实时环境交互与历史记忆检索的协同运作。使用时应配置持久化记忆存储系统，通过场景图查询实现经验实例的定向激活。评估模式支持单问题调试与全量测试切换，利用基于值的信息收集算法动态平衡探索与召回策略。

背景与挑战

背景概述

随着机器人技术向长期自主运行方向演进，能够在数日至数月周期内持续积累环境认知的智能体成为研究焦点。2025年由多机构联合团队提出的长期主动具身问答基准（LA-EQA）应运而生，该基准突破传统具身问答仅关注瞬时环境感知的局限，要求智能体融合历史经验回溯、实时环境探索与未来状态推演，以回答涉及时间维度的复杂问题。这一创新框架为具身人工智能在动态环境中的长期认知推理建立了新的研究范式，其提出的场景图式世界实例表征方法，为机器人持久记忆机制的设计提供了重要理论支撑。

当前挑战

在领域问题层面，传统大型模型受限于上下文窗口长度与记忆持久性不足，难以协调探索与回忆的决策平衡，而动态环境中的时空关联推理更构成核心难点。构建过程中需解决多模态数据的长周期对齐问题，包括跨时段场景变化的语义一致性维护，以及真实工业场景与仿真环境间的域适应挑战。此外，基于信息价值的停止准则设计需要精确量化认知不确定性，这对评估指标体系的构建提出了更高要求。

常用场景

经典使用场景

在长期自主机器人研究领域，LA-EQA基准测试通过构建跨越数月至数年的时序环境交互场景，为智能体提供了经典的多模态推理验证平台。该数据集要求智能体在动态变化的模拟环境与真实工业场景中，结合历史经验记忆与实时环境探索，回答涉及时间维度的复杂空间推理问题。典型应用包括在家庭服务机器人场景中追踪物体位置变迁，或在工业巡检环境中识别设备状态演变过程，有效模拟了长期自主系统中知识积累与决策优化的完整闭环。

解决学术问题

该数据集针对传统具身问答任务中存在的时序推理薄弱、记忆机制缺失等核心问题，提出了系统性解决方案。通过引入基于场景图的世界实例化记忆系统，突破了大型模型在长上下文处理与持续性记忆方面的技术瓶颈。其价值在于建立了融合时空推理的评估框架，为认知机器人学中的长期环境理解、探索-记忆权衡策略等前沿课题提供了标准化的研究基准，推动了具身智能从单次交互向终身学习范式的转变。

实际应用

在现实应用层面，LA-EQA基准支撑的算法系统已展现出广泛的落地潜力。智能仓储机器人可借助该技术实现库存在线追踪与异常检测，医疗陪护机器人能够通过长期观察学习患者行为模式。工业领域中的设备监测系统利用其时序推理能力预测机械故障，家庭服务机器人则依靠环境记忆优化日常服务流程。这些应用显著提升了自主系统在复杂动态环境中的适应性与服务连续性。

数据集最近研究