Rational Manipulation (RAMA)

Name: Rational Manipulation (RAMA)
Creator: 香港科技大学（广州）, 西湖大学, 蒙纳士大学, 南洋理工大学, 上海交通大学, 香港中文大学
Published: 2025-06-12 23:44:51
License: 暂无描述

arXiv2025-06-12 更新2025-06-14 收录

下载链接：

https://irpn-eai.github.io/rationalvla

下载链接

链接失效反馈

官方服务：

资源简介：

RAMA 数据集是一个用于评估机器人在面对自然语言指令时的理解和泛化能力的新基准。该数据集包含了超过14,000个样本，包括在视觉、物理、语义、运动、安全和情境外六个维度上的多种不可执行指令。数据集的构建过程考虑了现实场景中可能出现的复杂和不可见的指令，以及故意设计的不合理指令，以挑战机器人的语言理解和泛化能力。该数据集旨在帮助机器人更好地理解和响应自然语言指令，并在实际应用中具备更强的鲁棒性和泛化能力。

The RAMA Dataset is a novel benchmark for evaluating robotic understanding and generalization capabilities when faced with natural language instructions. This dataset comprises over 14,000 samples, encompassing various non-executable instructions across six dimensions: visual, physical, semantic, motion, safety, and out-of-context. During its construction, the dataset takes into account complex and unforeseen instructions that may emerge in real-world scenarios, as well as intentionally designed unreasonable instructions, to challenge robotic language comprehension and generalization capabilities. The dataset aims to assist robots in better understanding and responding to natural language instructions, and endow them with enhanced robustness and generalization capabilities in practical applications.

提供机构：

香港科技大学（广州）, 西湖大学, 蒙纳士大学, 南洋理工大学, 上海交通大学, 香港中文大学

创建时间：

2025-06-12

搜集汇总

数据集介绍

构建方式

在机器人操作领域，语言指令的准确理解与执行是实现智能交互的核心挑战。Rational Manipulation (RAMA) 数据集的构建采用了模块化与直接生成相结合的方法，通过程序化替换现有指令中的视觉、物理、语义和运动维度变量，并利用GPT-4o生成安全和上下文无关的缺陷指令，最终形成包含14,000余样本的多样化数据集。

特点

RAMA数据集以其多维度的缺陷指令设计脱颖而出，涵盖视觉、物理、语义、运动、安全和上下文无关六大类别。其独特之处在于不仅包含可执行指令，还引入了现实场景中常见的缺陷指令，如目标不存在或动作不可行，极大提升了模型在复杂环境下的鲁棒性和泛化能力。

使用方法

该数据集通过标准化评估协议支持模型训练与测试，特别设计了包含缺陷指令的长时程任务序列。研究人员可利用其丰富的指令类型，验证模型在理解自然语言、拒绝不可行指令以及执行操作等方面的综合能力，推动视觉-语言-动作一体化模型的创新发展。

背景与挑战

背景概述

Rational Manipulation (RAMA) 数据集由香港科技大学（广州）、西湖大学、莫纳什大学等机构的研究团队于2025年6月提出，旨在解决机器人操作任务中自然语言指令的鲁棒性问题。传统视觉-语言-动作（VLA）模型假设指令与环境完美匹配，而RAMA首次系统性地引入六类缺陷指令（视觉、物理、语义、运动、安全和上下文无关），构建了包含14,412条样本的基准测试集。该数据集通过模拟真实场景中指令的模糊性、不可行性等挑战，推动了具身智能领域对语言理解与安全决策的研究，相关成果发表于机器人顶刊《IEEE Robotics and Automation Letters》。

当前挑战

RAMA面临双重挑战：在领域问题层面，需解决缺陷指令识别（如不存在的物体操作指令）与复杂未见过指令执行的矛盾需求，现有模型平均任务完成长度仅1.18；在构建过程中，需克服多维度缺陷指令的语义标注难题，例如运动维度需编程验证机械臂运动学可行性，安全维度需平衡攻击性指令的多样性与伦理边界。数据生成采用模块化生成器与GPT-4o协同框架，确保视觉缺陷指令的颜色替换等扰动符合物理约束，同时保持90%以上的语法合理性。

常用场景

经典使用场景

在机器人操作任务中，Rational Manipulation (RAMA) 数据集被广泛用于评估模型在复杂和缺陷指令下的表现。该数据集通过模拟真实世界中可能遇到的模糊、不相关或不可行指令，为研究者提供了一个全面的测试平台。经典使用场景包括机器人臂在家庭或工业环境中执行任务时，如何处理和拒绝不符合当前场景的指令。

解决学术问题

RAMA 数据集解决了机器人操作领域中的关键学术问题，特别是在语言理解和环境感知的鲁棒性方面。传统模型往往假设指令与环境完美匹配，而RAMA通过引入缺陷指令，挑战模型在复杂环境下的适应能力。该数据集的意义在于推动了语言条件操作任务的泛化能力研究，为实际部署中的不确定性提供了解决方案。

衍生相关工作

RAMA 数据集衍生了一系列经典研究工作，特别是在双系统视觉-语言-动作（VLA）模型领域。例如，RationalVLA 模型通过结合高层视觉语言模型和低层操作策略，显著提升了在RAMA上的表现。此外，该数据集还启发了多模态推理和动态输入处理的相关研究，进一步推动了机器人操作任务的智能化发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集