RoboAfford-Eval

Hugging Face2025-06-03 更新2025-06-04 收录

下载链接：

https://huggingface.co/datasets/tyb197/RoboAfford-Eval

下载链接

链接失效反馈

官方服务：

资源简介：

RoboAfford-Eval是一个用于评估机器人对象和空间适应性理解能力的数据集，包含对象适应性识别、对象适应性预测和空间适应性定位三种任务的题目，共338个问题。数据集使用Where2Place数据集中的图片，并为每个问题提供了人工标注的多边形掩膜和绝对坐标与归一化坐标的标注。

RoboAfford-Eval is a dataset developed to evaluate robotic object and spatial affordance understanding capabilities. It contains a total of 338 questions covering three tasks: object affordance recognition, object affordance prediction, and spatial affordance localization. The dataset utilizes images from the Where2Place dataset, and each question is supplemented with manually annotated polygonal masks, as well as annotations of absolute coordinates and normalized coordinates.

创建时间：

2025-06-03

原始信息汇总

RoboAfford-Eval 数据集概述

基准描述

RoboAfford-Eval基准旨在评估对象和空间可供性理解能力，以增强机器人操作能力。该基准包含：

114个对象可供性识别任务问题
124个对象可供性预测任务问题
100个空间可供性定位任务问题（改编自Where2Place）

数据来源

使用Where2Place数据集的图像
所有问题均包含人工标注的基准真值

文件结构

RoboAfford-Eval/ ├── images/ # 包含用于评估的原始图像 ├── masks/ # 包含与基准真值区域对应的二值掩码 ├── annotations_absxy.json # 绝对坐标下的基准真值标注（像素单位的x,y值） └── annotations_normxy.json # 归一化坐标下的基准真值标注（[0,1]范围内的x,y值）

基准真值标注

每个问题包含：

一个或多个与答案中部分或实例对应的人工标注多边形掩码
所有338个问题的绝对坐标和归一化坐标表示

评估指标

点-掩码检查：验证每个预测点是否落在基准真值掩码内
准确率计算：位于基准真值掩码内的点数与每问题总预测点数的比率
整体准确率：所有问题的平均准确率

评估代码

Github地址：https://github.com/tyb197/RoboAfford

许可信息

许可证类型：CC-BY-4.0

搜集汇总

数据集介绍

构建方式

在机器人操作领域，RoboAfford-Eval基准测试的构建采用了多模态数据整合策略。该数据集基于Where2Place数据集的图像资源，通过人工标注方式生成了338个高质量的空间与物体功能推理问题。标注过程包含多边形掩码的精确绘制，并同步提供像素坐标与归一化坐标的双重标注体系，确保了数据表达的灵活性与精度。

特点

RoboAfford-Eval的突出特点在于其三重任务架构：物体功能识别、功能预测及空间功能定位，全面覆盖机器人环境交互的核心能力需求。数据集包含114至124个不等的任务问题，每个问题均配备人工标注的真实掩码和坐标数据，支持绝对与归一化两种坐标表示，为模型评估提供丰富而一致的比对基准。

使用方法

使用该数据集时，研究者可通过加载标准化标注文件，结合图像与掩码数据进行模型预测与验证。评估过程采用点-in-掩码检查机制，计算预测点落入真实区域的比例，并以此生成每题的准确率与整体平均精度。官方Git仓库提供完整评估代码，支持自动化结果计算与可视化分析。

背景与挑战

背景概述

在机器人操作智能化发展的背景下，RoboAfford-Eval数据集由研究团队于2023年推出，专注于物体与空间可供性理解能力的系统评估。该数据集整合了Where2Place的图像资源，并通过人工精细标注，涵盖了物体可供性识别、预测及空间可供性定位三大核心任务，旨在推动机器人对环境中物体功能与交互可能性的认知水平，为具身智能及自主操作系统的研究提供关键基准支持。

当前挑战

RoboAfford-Eval所应对的核心挑战在于机器人操作中复杂环境下的多模态可供性推理，包括物体功能属性的动态推断与空间交互区域的精确定位。构建过程中的主要难点涉及大规模高质量标注的获取，需协调多边形掩码的几何一致性与坐标表示的标准化，同时确保绝对坐标与归一化坐标双版本的数据兼容性与评估可靠性。

常用场景

经典使用场景

在机器人操作智能研究领域，RoboAfford-Eval数据集被广泛用于评估机器视觉系统对物体功能属性和空间关系的理解能力。研究者通过该数据集的三类任务——物体功能识别、功能预测和空间定位，系统检验模型对日常物品如杯子把手的抓取区域或椅子座面的承压区域等隐含功能的推理精度，为机器人交互提供核心认知基础。

实际应用

在实际机器人应用中，该数据集支撑了家庭服务机器人的物品操作系统开发。例如机器人可依据功能预测结果选择餐具的握持部位，或根据空间定位数据避开易碎品的承重区域。这些能力直接提升机器人整理家居、辅助餐饮等任务的执行成功率，推动服务机器人向更自然、安全的人机协作方向发展。

衍生相关工作

基于RoboAfford-Eval的评估框架，衍生出多项经典研究工作。例如结合视觉-语言模型的跨模态功能推理系统，通过文本提示增强空间关系理解；还有研究将其与物理仿真平台结合，生成动态交互场景下的功能验证流程。这些工作显著拓展了功能认知在机器人任务规划、多模态学习等方向的应用深度。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集