Embodied-Points-200K
收藏arXiv2025-08-20 更新2025-08-22 收录
下载链接:
https://huggingface.co/IffYuan
下载链接
链接失效反馈官方服务:
资源简介:
Embodied-Points-200K数据集是一个包含约20万个样本的高质量语料库,旨在提升机器人在机器人操作中的空间推理和指代能力。该数据集由天津大学的研究团队创建,旨在解决机器人操作中视觉感知与物理动作之间的“看见-做”差距问题。数据集内容来源于多种机器人操作数据集,支持四个关键指代能力:指代表达式定位、区域指代表达式定位、对象功能定位和视觉轨迹生成。数据集的创建过程使用了强化学习技术,并通过多任务奖励设计进行训练,从而实现了在多个空间理解和精确指代基准测试中的最先进性能。Embodied-Points-200K数据集的应用领域包括机器人操作、强化学习和视觉语言模型的研究。
The Embodied-Points-200K dataset is a high-quality corpus containing approximately 200,000 samples, designed to enhance robots' spatial reasoning and referring capabilities in robotic manipulation. This dataset was created by a research team from Tianjin University, aiming to address the "see-do" gap between visual perception and physical actions in robotic manipulation. The dataset content is derived from multiple robotic manipulation datasets, and it supports four core referring capabilities: referring expression grounding, regional referring expression grounding, object functionality grounding, and visual trajectory generation. The dataset was developed using reinforcement learning techniques, trained with a multi-task reward design, and achieved state-of-the-art performance across multiple spatial understanding and precise referring benchmarks. The application domains of the Embodied-Points-200K dataset include research in robotic manipulation, reinforcement learning, and vision-language models.
提供机构:
天津大学
创建时间:
2025-08-20
搜集汇总
数据集介绍

构建方式
Embodied-Points-200K数据集的构建采用了多源数据融合与自动化生成策略,整合了来自RefCOCO、RoboRefIt、RoboPoint等公开数据集以及Isaac Gym仿真引擎的合成数据。针对四种核心指向能力(REG、RRG、OFG、VTG),分别设计了专项数据生成流程:通过分割掩码标注实现精确目标定位,利用关系感知区域提取算法生成空间放置指令数据,基于功能部件标注构建物体可操作性数据集,并采用自监督关键点跟踪技术生成物体运动轨迹。所有数据均转化为“问题-验证”对形式,通过规则过滤与人工验证确保样本质量。
特点
该数据集具备多模态、多任务与高泛化性三大特征。其覆盖视觉-语言-动作三元交互场景,包含20万高质量样本,支持指代表达 grounding、空间区域指向、物体功能 grounding 及视觉轨迹生成四大能力。数据集显著优势在于突破传统边界框标注的局限性,采用像素级点坐标作为统一表征,有效解决多解歧义问题。同时,其跨域数据源涵盖真实场景与合成环境,增强了模型对复杂空间关系、小目标定位及遮挡场景的适应能力。
使用方法
数据集专为强化微调(RFT)范式设计,需配合多任务奖励函数进行模型训练。使用时首先将图像-指令对输入模型,通过自回归生成包含推理过程的坐标输出。验证阶段根据任务类型调用相应奖励模块:格式奖励确保输出结构合规,掩码内点奖励评估定位准确性,轨迹相似性奖励优化运动规划。训练时采用均匀采样策略混合多任务数据,通过加权奖励组合约束总奖励值在[0,1]区间,确保各能力均衡优化。最终模型可零样本部署至真实机器人平台,通过坐标转换与运动规划器实现具身操控。
背景与挑战
背景概述
Embodied-Points-200K数据集由天津大学研究团队于2025年创建,旨在解决具身智能领域的感知与行动鸿沟问题。该数据集聚焦于以点标注作为统一的中介表示,桥接高级视觉语言理解与低级动作原语,核心研究涉及指代表达定位、区域参考 grounding、物体功能 grounding 及视觉轨迹生成四大能力。通过集成多源具身与通用视觉推理数据,该数据集显著提升了视觉语言模型在机器人操作任务中的零样本泛化能力,对推动具身推理与通用机器人操控研究具有重要影响力。
当前挑战
Embodied-Points-200K针对机器人操作中的空间推理与动作执行鸿沟,需解决指代表达的精确空间锚定、多解困境下的泛化性能以及跨形态机器人的知识迁移等挑战。构建过程中,面临多源数据异构整合、高质量点标注验证、以及预训练视觉模型噪声引入等难题,需通过自动化流水线与启发式过滤策略确保数据的一致性与可靠性。
常用场景
经典使用场景
在具身人工智能领域,Embodied-Points-200K数据集通过统一的点标注表征形式,为视觉语言模型提供了精确的空间推理与指向能力训练基础。该数据集最经典的应用场景在于支持模型学习四种核心指向能力:指代表达接地、区域参考接地、物体功能接地及视觉轨迹生成,这些能力共同构成了机器人零样本操作任务的核心技术框架。
解决学术问题
Embodied-Points-200K有效解决了具身智能中的“感知-行动鸿沟”问题,通过点标注的中间表征弥合了高层视觉语言理解与底层动作原语之间的差异。其意义在于克服了数据稀缺性和机器人形态异构性两大挑战,为模型提供了跨任务、跨场景的泛化能力,显著提升了在未知环境中的空间推理和操作性能,推动了具身推理研究范式的革新。
衍生相关工作
Embodied-Points-200K催生了一系列经典研究工作,包括基于强化微调(RFT)的训练范式Embodied-R1模型,其在11项空间与指向基准测试中达到最优性能。衍生工作还涉及多任务奖励设计、跨模态RGB-D融合方法以及面向仿真与真实世界的迁移学习框架,这些成果共同推动了以点为中心的具身推理研究方向的深入发展。
以上内容由遇见数据集搜集并总结生成



