mbodiai/oxe_bridge_v2

Name: mbodiai/oxe_bridge_v2
Creator: mbodiai
Published: 2024-07-09 13:19:51
License: 暂无描述

Hugging Face2024-07-09 更新2024-07-22 收录

下载链接：

https://hf-mirror.com/datasets/mbodiai/oxe_bridge_v2

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个字段，涉及图像、观察、动作、监督、状态等信息。具体包括图像数据、任务描述、动作姿态（如位置和旋转角度）、监督信号、状态信息（如末端执行器姿态、是否为首尾步骤等）以及时间戳。元数据部分提供了数据集的详细信息，如数据收集方法、机器人类型、场景类型、文件大小等。数据集分为多个分片，每个分片包含一定数量的示例。

The dataset includes multiple features such as images, observations, actions, supervision, timestamps, etc. Each feature has detailed structure and data type descriptions. For example, the observation feature contains images and tasks, while the action feature contains pose and grasp information. Additionally, there are metadata about the dataset, such as the number of cameras, data collection methods, etc. The dataset is divided into multiple shards, each with its size and number of examples.

提供机构：

mbodiai

原始信息汇总

数据集概述

数据集信息

特征

image: 图像数据，数据类型为 image。
observation: 结构化数据，包含以下字段：
- image: 图像数据，数据类型为 image。
- task: 任务描述，数据类型为 string。
action: 结构化数据，包含以下字段：
- pose: 姿态信息，包含以下字段：
  - x: 位置坐标，数据类型为 float64。
  - y: 位置坐标，数据类型为 float64。
  - z: 位置坐标，数据类型为 float64。
  - roll: 旋转角度，数据类型为 float64。
  - pitch: 旋转角度，数据类型为 float64。
  - yaw: 旋转角度，数据类型为 float64。
- grasp: 抓取信息，数据类型为 float64。
supervision: 监督信息，数据类型为 float64。
episode_idx: 片段索引，数据类型为 int64。
step_idx: 步骤索引，数据类型为 int64。
absolute_action: 结构化数据，包含以下字段：
- pose: 姿态信息，包含以下字段：
  - x: 位置坐标，数据类型为 float64。
  - y: 位置坐标，数据类型为 float64。
  - z: 位置坐标，数据类型为 float64。
  - roll: 旋转角度，数据类型为 float64。
  - pitch: 旋转角度，数据类型为 float64。
  - yaw: 旋转角度，数据类型为 float64。
- grasp: 抓取信息，数据类型为 float64。
state: 结构化数据，包含以下字段：
- end_effector_pose: 末端执行器姿态，包含以下字段：
  - x: 位置坐标，数据类型为 float64。
  - y: 位置坐标，数据类型为 float64。
  - z: 位置坐标，数据类型为 float64。
  - roll: 旋转角度，数据类型为 float64。
  - pitch: 旋转角度，数据类型为 float64。
  - yaw: 旋转角度，数据类型为 float64。
- is_first: 是否为第一个步骤，数据类型为 int64。
- is_last: 是否为最后一个步骤，数据类型为 int64。
- is_terminal: 是否为终止步骤，数据类型为 int64。
- language_embedding: 语言嵌入，数据类型为 list[float64]。
timestamp: 时间戳，数据类型为 float64。
metadata: 元数据，包含以下字段：
- num_depth_cams: 深度相机数量，数据类型为 int64。
- num_episodes: 片段数量，数据类型为 string。
- num_rgb_cams: RGB相机数量，数据类型为 int64。
- num_wrist_cams: 腕部相机数量，数据类型为 int64。
- action_space: 动作空间描述，数据类型为 string。
- control_frequency: 控制频率，数据类型为 string。
- data_collect_method: 数据收集方法，数据类型为 string。
- dataset: 数据集名称，数据类型为 string。
- description: 数据集描述，数据类型为 string。
- file_size_gb: 文件大小（GB），数据类型为 float64。
- gripper: 夹持器描述，数据类型为 string。
- has_camera_calibration: 是否有相机校准，数据类型为 string。
- has_proprioception: 是否有本体感知，数据类型为 string。
- has_suboptimal: 是否有次优数据，数据类型为 string。
- language_annotations: 语言注释，数据类型为 string。
- registered_dataset_name: 注册的数据集名称，数据类型为 string。
- robot: 机器人描述，数据类型为 string。
- robot_morphology: 机器人形态，数据类型为 string。
- scene_type: 场景类型，数据类型为 string。

数据集拆分

shard_0: 包含 314 个样本，总字节数为 239742191.0。

数据集大小

下载大小: 238436886 字节。
数据集大小: 239742191.0 字节。

配置

default: 包含 shard_0 数据文件，路径为 data/shard_0-*。

搜集汇总

数据集介绍

构建方式

在机器人操作与视觉感知领域，OXE Bridge V2数据集通过系统化的数据采集流程构建而成。该数据集整合了多模态传感器信息，包括RGB图像、深度相机数据以及机器人末端执行器的姿态与抓取状态。数据采集过程在受控环境中进行，记录了机械臂执行特定任务时的连续观测与动作序列，每个数据点均包含时间戳、任务描述及状态标记，确保了时序一致性与任务上下文的完整性。

特点

OXE Bridge V2数据集展现出多源异构的数据融合特性，其结构涵盖图像观测、六自由度姿态动作、语言嵌入向量及元数据标注。数据集提供了绝对动作与相对动作的双重表示，支持端到端学习与策略评估。此外，数据集中包含丰富的元信息，如机器人形态、控制频率与场景类型，为跨任务泛化与模型适应性研究奠定了坚实基础。

使用方法

该数据集适用于机器人模仿学习、视觉运动规划及多模态策略训练等研究方向。使用者可通过加载分片数据，提取图像观测与对应动作序列，构建状态-动作映射模型。数据中的语言嵌入可用于指令跟随任务，而时间戳与状态标记支持序列建模与离线强化学习。建议结合PyTorch或TensorFlow框架，利用数据集的层次化结构进行批量处理与模型训练。

背景与挑战

背景概述

在机器人学习领域，大规模、高质量的数据集是推动模仿学习与强化学习算法发展的关键基石。OXE Bridge V2数据集由mbodiai团队构建，作为Open X-Embodiment项目的重要组成部分，其核心研究问题聚焦于如何通过多模态观察与动作序列的精确对齐，来训练通用型机器人策略。该数据集整合了丰富的视觉感知信息与高维度的机械臂控制指令，旨在解决跨场景、跨任务的机器人技能泛化难题，对促进具身智能的实用化进程具有深远影响。

当前挑战

该数据集致力于应对机器人操作任务中策略泛化能力不足的核心挑战，其难点在于如何从异构的演示数据中学习出对视觉变化、物体姿态及环境干扰鲁棒的控制策略。在构建过程中，挑战同样显著：需确保多摄像头视觉流与末端执行器位姿、抓取状态等动作数据在时间上的严格同步；同时，数据采集涉及复杂的软硬件系统集成，并需处理海量高维时序数据的存储、标注与质量校验问题，以保障数据的一致性与可靠性。

常用场景

经典使用场景

在机器人学习领域，视觉-语言-动作对齐是推动具身智能发展的核心挑战。mbodiai/oxe_bridge_v2数据集以其丰富的多模态轨迹记录，为机器人模仿学习提供了经典范例。该数据集通过整合图像观察、语言指令与机械臂动作序列，使研究者能够训练端到端的策略模型，让机器人从视觉输入中理解任务意图并生成精确的抓取与放置操作。其结构化数据特别适用于序列决策模型的训练，促进了从感知到动作的连贯映射。

解决学术问题

该数据集有效应对了机器人操作任务中样本效率低下与泛化能力不足的学术难题。通过提供大规模、多样化的真实世界交互数据，它支持数据驱动的强化学习与行为克隆方法，减少了在仿真环境中训练带来的模拟到现实的差距。数据集包含的绝对动作与状态信息，有助于研究动作表示学习与状态估计问题，为构建能够在非结构化环境中执行复杂操作的通用机器人模型奠定了数据基础。

衍生相关工作

围绕该数据集所代表的多模态机器人数据集范式，学术界已衍生出诸多经典研究。例如，基于大规模离线数据集进行策略预训练的工作，显著提升了策略的泛化性与样本效率。同时，催生了专注于跨任务知识迁移、语言条件策略生成以及从视频预测动作的模型架构创新。这些工作共同推动了以数据为中心的研究范式，为构建通用机器人智能体提供了关键支撑。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集