RoboAfford

Hugging Face2025-06-03 更新2025-06-04 收录

下载链接：

https://huggingface.co/datasets/tyb197/RoboAfford

下载链接

链接失效反馈

官方服务：

资源简介：

RoboAfford是一个大规模的数据集，含有密集的、富有affordance意识的标注，用于指令驱动的操作。该数据集包含819,987张图像和1.9百万个问答对，将物体和空间affordances统一，以支持机器人中的交互式学习。

RoboAfford is a large-scale dataset with dense, affordance-aware annotations for instruction-driven manipulation. This dataset contains 819,987 images and 1.9 million question-answer pairs, unifying object and spatial affordances to support interactive learning in robotics.

创建时间：

2025-06-03

原始信息汇总

RoboAfford数据集概述

基本信息

许可证: CC-BY-4.0
规模: 包含819,987张图像和1.9百万个问答对
用途: 支持机器人交互中心学习，专注于物体和空间可供性理解

数据集组成

LVIS_absxy_513K.json:
- 数据量: 513K个物体检测问答对
- 图像来源: LVIS (152,152张图像)
pointing_absxy_190K.json:
- 数据量: 190K个物体指向问答对
- 图像来源: PixMo-Points (63,907张图像)
object_affordance_prediction_absxy_561K.json:
- 数据量: 561K个物体可供性预测问答对
- 图像来源: PACO-LVIS (45,790张图像)
object_ref_max_points_10_absxy_347K.json:
- 数据量: 347K个物体参考问答对
- 图像来源: RoboPoint-data (287,956张图像)
region_ref_max_points_10_absxy_320K.json:
- 数据量: 320K个区域参考问答对
- 图像来源: RoboPoint-data (270,182张图像)

数据格式

每个JSON文件包含结构化对话列表，附带图像引用
示例格式: json { "id": "paco_403013", "image": "train2017/000000403013.jpg", "conversations": [ { "from": "human", "value": "<image> 问题描述..." }, { "from": "gpt", "value": "[(坐标)]" } ] }

评估资源

基准协议和评估指标参考:
- RoboAfford-Eval
- GitHub仓库

搜集汇总

数据集介绍

构建方式

RoboAfford数据集的构建体现了多源异构数据的融合创新，通过系统整合LVIS、PixMo-Points、PACO-LVIS和RoboPoint-data等权威视觉数据集，采用结构化标注策略生成189万组问答对。构建过程中严格遵循空间可操作性（spatial affordance）与物体可操作性（object affordance）的双重标注标准，每幅图像均配有精确到像素级的坐标标注，并通过JSON格式实现对话式交互数据的标准化存储。这种跨数据集的知识迁移方法，显著提升了机器人操作任务中场景理解的数据密度。

使用方法

使用该数据集时需注意其对话式数据结构特性，每个JSON条目包含图像路径和多轮问答对话。典型应用流程包括：加载图像后解析坐标标注指令，利用bounding box或point坐标进行物体定位训练；基于功能预测QA对开展家电可操作性推理实验；结合官方评估协议RoboAfford-Eval进行模型性能验证。研究人员可通过HuggingFace接口直接调用各子集，或根据任务需求组合不同标注类型的训练样本。

背景与挑战

背景概述

RoboAfford数据集作为机器人交互学习领域的重要资源，由多个研究机构联合构建，整合了LVIS、PixMo-Points、PACO-LVIS和RoboPoint-data等知名数据集的核心内容。该数据集聚焦于物体可供性（affordance）理解这一关键科学问题，通过融合819,987张图像和190万组问答对，为机器人操作任务提供了空间与功能属性的联合标注框架。其创新性在于将传统物体检测任务拓展至交互意图理解维度，推动了机器人对物理场景的认知从静态识别向动态交互转变，对具身智能和机器人操作规划研究具有显著影响力。

当前挑战

在解决机器人交互意图理解这一核心问题时，RoboAfford面临多维度挑战：跨数据集标注体系的异构性导致可供性标签的统一映射困难；复杂场景下空间坐标与功能属性的耦合标注需要平衡精度与效率；问答对生成需协调严格的几何约束与自然语言表达的灵活性。数据集构建过程中，大规模多源数据的清洗与去重消耗大量计算资源，而保持不同交互任务（如物体指向、区域参考等）间标注标准的一致性，则对质量验证机制提出更高要求。

常用场景

经典使用场景

在机器人交互学习领域，RoboAfford数据集凭借其密集的affordance标注和丰富的问答对，成为研究物体交互能力的核心资源。该数据集通过整合多源视觉数据，构建了包含物体检测、指向预测、功能推理等任务的统一框架，特别适用于训练基于视觉-语言联合建模的机器人操作模型。其标注形式精确到像素级坐标，为模型理解物体空间关系与功能属性提供了标准化基准。

解决学术问题

RoboAfford有效解决了机器人学中物体功能表征与空间推理的耦合难题。通过融合LVIS、PACO-LVIS等数据集的优势，该数据集首次实现了物体基础检测与高阶affordance预测的统一标注体系，填补了传统方法在交互意图理解方面的空白。其百万级问答对为深度学习模型提供了细粒度的监督信号，推动了具身智能领域从感知到决策的端到端学习范式发展。

实际应用

在工业机器人分拣、家庭服务机器人操作等现实场景中，RoboAfford的标注体系可直接迁移应用。基于该数据集训练的模型能准确识别微波炉加热、门把手抓握等交互热点区域，显著提升机器人执行指令的精确度。其坐标标准化的输出格式与主流机器人控制系统天然兼容，已成功应用于视觉伺服控制、自主抓取规划等实际任务。

数据集最近研究