FoMER

Hugging Face2025-09-18 更新2025-09-19 收录

下载链接：

https://huggingface.co/datasets/Dinura/FoMER

下载链接

链接失效反馈

官方服务：

资源简介：

Foundation Model Embodied Reasoning (FoMER)基准是一个用于评估大型多模态模型在复杂环境中进行逐步推理能力的数据集。它包含多种任务，要求智能体解释多模态观察，推理物理约束和安全，并以自然语言生成有效的后续行动。

创建时间：

2025-09-16

原始信息汇总

FoMER 数据集概述

数据集基本信息

名称：FoMER（Foundation Model Embodied Reasoning）
许可证：Apache-2.0
语言：英语（en）
下载大小：1,259,556,242 字节
数据集大小：1,873,552,927 字节

数据集特征

id：字符串类型
images：图像序列
video_path：字符串类型
question：字符串类型
answer：字符串类型
choices：字符串序列
question_type：字符串类型
reasoning：字符串类型
category：字符串类型

数据划分

划分名称	样本数量	数据大小（字节）
agibot_world	100	117,933,067
bridgev2	100	24,533,561
holoassist	100	40,555,199
hribench	100	179,833,216
pbench	71	2,836,501
robofail	100	162,712,383
robovqa	101	104,698,163
nyuvinn	271	1,148,324,018
roboset	72	51,916,815
recon	97	40,210,004

数据集描述

FoMER基准测试旨在评估大型多模态模型在复杂具身决策场景中的推理能力。该基准测试涵盖多样化任务，要求智能体解释多模态观察、推理物理约束和安全性，并以自然语言生成有效下一步动作。

关键特点

包含超过1,100个样本
涵盖10个任务和8种具身形式
包含三种不同类型机器人
提供详细的逐步推理过程
支持多种问题类型
涵盖更广泛的任务和机器人平台

研究目标

评估基础模型在具身环境中的逐步推理能力
提出新的评估框架，将感知 grounding 与动作推理分离
分析领先大型多模态模型在此设置下的实证表现

搜集汇总

数据集介绍

构建方式

FoMER数据集通过整合10个异构任务和8种不同机器人平台的多模态数据构建而成，涵盖物理交互、安全约束和空间推理等核心维度。数据采集过程融合了真实环境传感器记录与仿真环境合成数据，每个样本均包含图像序列、自然语言问题及结构化推理链。标注工作由领域专家团队执行，确保问题-答案对在物理可行性和逻辑一致性方面达到高标准。

特点

该数据集包含超过1100个样本，其独特价值体现在三重维度：多模态输入融合视觉观察与语言指令，覆盖机械臂、移动机器人等三种机器人类型；问题类型涵盖单选、推理、规划等七种模式，且每个样本均附带逐步推理痕迹；数据分布跨越家庭服务、工业操作等10个场景，在任务多样性和物理约束复杂性方面显著超越现有基准。

使用方法

研究者可通过HuggingFace接口加载标准化数据拆分，利用预定义的特征字段进行模型训练与评估。评估框架采用解耦式设计：首先检验模型对视觉-语言基础特征的感知 grounding 能力，进而评估其基于物理约束的动作推理有效性。基准测试支持端到端评估与分阶段分析，输出指标包括推理准确率、动作可行性和安全合规性等多维度量。

背景与挑战

背景概述

FoMER（Foundation Model Embodied Reasoning）基准数据集由MBZUAI研究团队于2024年推出，旨在系统评估多模态大模型在具身推理任务中的表现。该数据集聚焦于机器人智能领域的核心问题，即如何使人工智能系统在物理环境中进行安全、空间连贯且情境 grounded 的逐步推理。其创新性在于整合了10类任务、8种机器人平台及3种机器人类型的多样化场景，涵盖了从视觉感知到动作生成的完整推理链条，为具身人工智能的发展提供了重要的评估框架。

当前挑战

FoMER数据集面临的领域挑战在于解决具身智能中多模态推理与物理约束结合的复杂问题，需同时处理视觉理解、语言生成与动作规划的异构模态对齐。构建过程中的挑战包括跨平台数据标准化、安全边界标注的一致性维护，以及逐步推理链的精细标注。此外，还需平衡不同机器人平台的特性与任务多样性，确保评估框架既能反映模型泛化能力，又能捕捉具身环境中的实际约束。

常用场景

经典使用场景

在具身智能研究领域，FoMER数据集被广泛应用于评估多模态大模型在物理环境中的逐步推理能力。该数据集通过包含视觉观察、语言指令和动作序列的多元交互数据，为研究者提供了测试模型在复杂场景下进行结构化推理的标准平台。典型应用包括让模型分析环境状态、预测合理动作序列，并验证其决策是否符合物理约束与安全要求，从而推动具身推理技术的边界拓展。

衍生相关工作

基于FoMER数据集的研究催生了多项具身推理领域的创新工作，包括分层推理架构的设计和混合推理模型的开发。该数据集的推出促进了多模态预训练模型在机器人领域的适配研究，激发了关于视觉-语言-动作三元协同机制的新探索。相关研究团队利用其丰富的推理痕迹数据，开发出能够进行自我修正的迭代推理模型，显著提升了具身智能系统的决策透明度和可靠性。

数据集最近研究