REALM

Name: REALM
Creator: 捷克技术大学布拉格分校信息学、机器人与控制论研究所
Published: 2025-12-23 00:44:23
License: 暂无描述

arXiv2025-12-23 更新2025-12-24 收录

下载链接：

https://martin-sedlacek.com/realm/

下载链接

链接失效反馈

官方服务：

资源简介：

REALM是由捷克技术大学团队开发的高保真仿真环境与基准测试平台，专注于评估视觉-语言-动作（VLA）模型的泛化能力。该数据集包含7种核心操作技能、15类系统扰动因素及超过3,500个多样化物体，通过物理仿真与真实世界数据对齐构建。数据集采用IsaacSim框架实现高精度视觉渲染和机器人控制对齐，包含800组真实与仿真轨迹对比验证数据。其核心应用领域是机器人操作任务的泛化性能测试，旨在解决VLA模型在跨场景、跨物体迁移时的可靠性评估难题，为机器人学习提供可扩展的仿真验证基准。

提供机构：

捷克技术大学布拉格分校信息学、机器人与控制论研究所

创建时间：

2025-12-23

原始信息汇总

REALM: A Real-to-Sim Validated Benchmark for Generalization in Robotic Manipulation

基本信息

数据集名称：REALM
核心定位：一个用于评估机器人操作泛化能力的大规模逼真仿真环境与基准
主要目标：通过高保真视觉和对齐的机器人控制，建立仿真性能与现实世界性能之间的强相关性，以系统性地评估视觉-语言-动作模型的泛化与鲁棒性
发布状态：相关论文已发布于arXiv
作者机构：捷克技术大学布拉格信息学、机器人学与控制论研究所、布拉格捷克技术大学电气工程学院、阿姆斯特丹大学

数据集/环境构成

仿真环境：大规模、逼真的机器人操作仿真环境
操作技能：支持7种不同的操作技能
扰动因素：包含15种扰动因素，用于压力测试模型的鲁棒性
对象库：包含超过4,000个对象
任务集：包含两个基准任务集（REALM-base 和 REALM-articulated）

关键特性与验证

仿真与现实对齐：通过控制对齐和高保真视觉，实现了仿真与现实世界性能的强相关性（Pearson相关性高，p值 < 0.001）
验证方法：包含仿真到现实的验证，展示了任务进展在现实与仿真中的高度一致性，以及注意力图的高相似性（余弦相似度达0.85/1）

评估结果与主要发现

评估模型：评估了 π0、π0-FAST 和 GR00T N1.5 三种视觉-语言-动作模型
核心结论：泛化与鲁棒性仍然是一个开放的挑战，当前模型尚不具备自主现实世界部署的能力
具体发现：
1. 高保真仿真与对齐的机器人控制可作为现实世界性能的有效代理。
2. 尽管使用了互联网规模数据预训练的视觉语言模型骨干，但在纯语义扰动下性能仍显著下降。
3. 所有模型对相机视角仍表现出明显的敏感性。
4. 跨对象及其属性的行为泛化对所有测试模型最具挑战性。
5. 当操作对象保持不变时，所有测试模型在已知技能上表现出良好的泛化能力。
6. 在扰动下的可靠性和鲁棒性仍然极具挑战性，模型在许多基本操作任务上的成功率仍然很低。

获取方式

论文地址：https://arxiv.org/abs/2512.19562
代码仓库：页面提供代码链接（__ arXiv Code）

搜集汇总

数据集介绍

构建方式

在机器人操作领域，评估视觉-语言-动作模型的泛化能力常受限于真实世界测试的高成本与低可重复性。REALM数据集通过构建高保真仿真环境来应对这一挑战，其构建过程以DROID平台为实体基础，采用IsaacSim框架实现视觉与控制的精准对齐。研究者通过系统辨识方法优化了14个关节摩擦与惯性参数，最小化了仿真与真实轨迹间的差异，从而确保了仿真环境在视觉逼真度与物理响应上的高度可靠性。该环境集成了7种核心操作技能，并设计了涵盖视觉、语义与行为三大类别的15种扰动因素，支持超过3500个对象，为大规模可重复评估奠定了坚实基础。

特点

REALM数据集的核心特点在于其系统性、高保真度与验证严谨性。它首次在仿真基准中实现了对视觉、语义及行为扰动的全面覆盖，其中行为类扰动多达7种，显著超越了现有基准的多样性。数据集通过高保真渲染与对齐控制，有效弥合了仿真与现实间的差距，其真实性在近800对真实与仿真轨迹的对比验证中得到了证实，显示出极强的性能相关性。此外，数据集采用分层任务进展度量取代简单的二元成功率，提供了对模型性能更细腻的评估维度。这种设计使得REALM能够系统性地探测并量化先进模型在复杂泛化场景中的弱点与失败模式。

使用方法

REALM数据集主要作为评估视觉-语言-动作模型泛化能力的基准平台。使用者可在其仿真环境中部署待测模型，在默认设置及15种受控扰动下执行涵盖基础操作与关节操作的10项任务。评估过程通过自动化流程运行大量仿真推演，并依据预设的分层进展量表对模型性能进行量化评分。研究者可据此分析模型在视觉变化、语义理解及行为适应等不同维度上的鲁棒性差异，并通过对比仿真结果与有限的真实世界验证数据，可靠地推断模型在现实中的潜在表现。该基准为系统化、低成本地研究机器人模型的泛化瓶颈提供了标准化协议与可靠工具。

背景与挑战

背景概述

在机器人学习领域，评估视觉-语言-动作模型在多样化环境中的泛化能力，长期以来因真实世界测试的高成本与低可复现性而面临瓶颈。REALM基准由捷克技术大学信息学、机器人与控制论研究所等机构的研究团队于2025年提出，旨在构建一个大规模、高保真且经过真实到仿真验证的仿真环境与评测体系。该数据集聚焦于机器人操作任务的泛化性能评估，核心研究问题在于如何通过精确对齐的仿真环境，系统性地量化VLA模型在视觉、语义及行为扰动下的鲁棒性，从而为机器人基础模型的可靠部署提供可扩展且可信的评估标准。

当前挑战

REALM数据集致力于解决机器人操作中模型泛化能力评估的核心挑战，即在多样化扰动下保持任务执行的鲁棒性。具体挑战包括：在视觉层面，模型需应对视角变换、光照变化及场景干扰物带来的分布偏移；在语义层面，需理解基于物体属性、空间关系及人类常识的多样化自然语言指令；在行为层面，需适应物体姿态、质量、形状变化及新物体的操作需求。构建过程中的主要挑战在于实现仿真与真实世界的高保真对齐，包括通过系统辨识优化机器人关节摩擦与惯性参数以减少控制差距，并确保高视觉逼真度以维持模型注意力分布的一致性，从而建立仿真性能与真实表现之间的强相关性。

常用场景

经典使用场景

在机器人学习领域，评估视觉-语言-动作模型在未知环境下的泛化能力一直是核心挑战。REALM数据集通过构建高保真仿真环境与系统化扰动测试套件，为研究者提供了标准化评估平台。其经典使用场景在于对预训练的VLA模型进行大规模、可重复的泛化性能测试，通过模拟15类视觉、语义及行为扰动，系统性地探测模型在物体属性变化、视角偏移、指令语义转换等复杂条件下的鲁棒性边界。

衍生相关工作

REALM的发布催生了多个方向的衍生研究。在基准扩展方面，后续工作基于其扰动分类学开发了更细粒度的测试场景；在方法创新层面，研究者利用其提供的失败模式分析改进模型架构，如增强语义理解模块或改进多视角融合机制。该数据集还与RoboArena等真实世界评估平台形成互补生态，共同推动建立从仿真到实物的全链条评估标准，为VLA模型的迭代升级提供了持续的性能反馈环。

数据集最近研究