Phys100K

Name: Phys100K
Creator: 中国科学院自动化研究所
Published: 2025-03-11 22:34:41
License: 暂无描述

arXiv2025-03-11 更新2025-03-13 收录

下载链接：

http://arxiv.org/abs/2503.08481v1

下载链接

链接失效反馈

官方服务：

资源简介：

Phys100K是一个大规模的多机器人数据集，由中国科学院自动化研究所 foundation Model Research Center创建。该数据集旨在支持视觉语言模型在理解机器人物理可达性方面的训练和评估，包含来自不同机器人的RGB图像、深度图以及机器人参数等数据。数据集涵盖了多种环境下的任务，包括模拟环境和真实世界环境，以帮助模型学习机器人物理可达性的通用特征，并解决相关的任务规划问题。

Phys100K is a large-scale multi-robot dataset created by the Foundation Model Research Center, Institute of Automation, Chinese Academy of Sciences. This dataset is designed to support the training and evaluation of vision-language models for understanding robotic physical accessibility. It contains data such as RGB images, depth maps, and robotic parameters collected from various robots. The dataset covers tasks across diverse environments, including both simulated and real-world scenarios, to enable models to learn generalizable features of robotic physical accessibility and solve related task planning problems.

提供机构：

中国科学院自动化研究所

创建时间：

2025-03-11

搜集汇总

数据集介绍

构建方式

Phys100K数据集的构建采用了多种数据源，包括RoboVQA、ScanNet、OpenX-Embodiment和PyBullet等，涵盖了20K、10K、60K和10K的样本量。为了生成S-P Map，数据集还使用了DepthAnything-v2、Grounding DINO和SAM2等工具。数据集中包含了机器人参数、相机参数、深度图、分割结果等信息，并通过模拟真实场景来获取可达性标签。

特点

Phys100K数据集的特点在于其多样性和综合性。它包含了多个不同类型的机器人数据，使得模型可以在不同机器人配置下进行训练和评估。数据集中的可达性信息是通过S-P Map来抽象表示的，这种表示方式使得模型可以专注于可达性特征，而不是特定的机器人参数。此外，Phys100K数据集还包含了丰富的可达性相关的QA任务，可以帮助模型更好地理解机器人可达性。

使用方法

使用Phys100K数据集的方法主要包括两个方面：训练和评估。在训练阶段，数据集可以用来训练模型对机器人可达性的理解和推理能力。在评估阶段，数据集可以用来评估模型在处理涉及机器人可达性的视觉推理任务时的性能。此外，数据集中的可达性信息还可以用来改进其他视觉语言模型，例如将S-P Map集成到GPT-4o-mini中，可以提高模型在可达性相关任务上的性能。

背景与挑战

背景概述

在机器人执行任务的过程中，对环境和机器人物理可达性的理解至关重要。尽管最先进的视觉语言模型（VLMs）在环境感知方面表现出色，但它们在具身视觉推理任务中往往产生不准确或不切实际的响应，这是由于缺乏对机器人物理可达性的理解。为了解决这个问题，我们提出了一个统一的物理可达性表示，即空间物理可达性图（S-P Map），以及PhysVLM，一个将这种可达性信息集成到视觉推理中的视觉语言模型。具体来说，S-P Map将机器人的物理可达性抽象为一个通用的空间表示，独立于特定的机器人配置，使得模型能够专注于可达性特征而不是机器人特定的参数。随后，PhysVLM通过引入一个额外的特征编码器来处理S-P Map，扩展了传统的VLM架构，使得模型能够在不牺牲其通用视觉语言能力的情况下进行物理可达性的推理。为了训练和评估PhysVLM，我们构建了一个大规模的多机器人数据集Phys100K和一个具有挑战性的基准EQA-phys，其中包含六个不同机器人在模拟和现实世界环境中的任务。实验结果表明，PhysVLM优于现有模型，在EQA-phys上比GPT-4o提高了14%，并在RoboVQA-val和OpenEQA基准测试中超越了RoboMamba和SpatialVLM等先进的具身VLMs。此外，S-P Map与各种VLMs具有很强的兼容性，将其集成到GPT-4o-mini中可提高7.1%的性能。

当前挑战

尽管PhysVLM在理解机器人物理可达性方面取得了显著进展，但仍然存在一些挑战。首先，开发一个统一的和高效的物理可达性表示仍然是一个挑战。由于机器人之间存在显著的差异，如尺寸、关节类型等，这使得VLMs难以直接学习这些差异。其次，在不牺牲通用视觉语言能力的情况下，使VLMs能够提高对物理可达性的理解仍然是一个挑战。现有的VLMs通常结合预训练的单模态编码器进行视觉和语言任务。然而，引入一个新的模态，如物理可达性，需要仔细调整架构和训练，以确保模型在推理可达性的同时保持其通用能力。

常用场景

经典使用场景

Phys100K数据集主要用于视觉语言模型（VLMs）的训练和评估，特别是针对机器人物理可达性的理解。该数据集为VLMs提供了多样化的环境和任务场景，包括模拟和真实世界的环境，以及不同类型的机器人。通过这些数据，VLMs可以学习如何根据机器人的物理可达性进行视觉推理，从而更准确地理解环境和执行任务。

解决学术问题

Phys100K数据集解决了视觉语言模型在理解机器人物理可达性方面的不足。传统的VLMs在环境感知方面表现出色，但在需要理解机器人物理可达性的任务中，往往会生成不准确或不切实际的响应。Phys100K数据集提供了大量的可达性信息，使得VLMs可以学习如何将可达性信息融入视觉推理中，从而提高任务执行的可靠性。此外，该数据集还解决了如何将可达性信息以统一的方式表示的问题，使得模型可以泛化到不同的机器人。

衍生相关工作

Phys100K数据集的发布，激发了更多关于视觉语言模型和机器人物理可达性的研究。例如，研究人员可以探索如何使用Phys100K数据集来训练VLMs，使其能够更好地理解机器人的物理可达性，并提高任务执行的可靠性。此外，Phys100K数据集还可以用于开发新的算法，例如基于可达性信息的机器人路径规划算法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集