Open-X Embodiment (OXE) 数据集|机器人技术数据集|深度学习数据集

arXiv2025-05-21 更新2025-05-24 收录

机器人技术

深度学习

下载链接：

https://github.com/BerkeleyAutomation/fog_x

下载链接

链接失效反馈

资源简介：

Open-X Embodiment (OXE) 数据集是一个用于训练Transformer模型的大型机器人数据集，包含远程操作机器人演示的轨迹数据。数据集包含视频、文本和数值等多种模态，包括来自多个摄像头的流数据。OXE数据集被用于训练能够在新场景、新机器人和新任务中泛化的模型。Robo-DM是一个高效的开源云数据管理工具包，用于收集、共享和学习机器人数据，通过使用Extensible Binary Meta Language (EBML)格式的自包含格式存储机器人数据集，可以显著减少机器人轨迹数据的存储空间、传输成本和加载数据的时间。

提供机构：

加利福尼亚大学伯克利分校, 谷歌DeepMind

创建时间：

2025-05-21

原始信息汇总

🦊 Robo-DM 数据集概述

基本信息

名称: Robo-DM (原名称: fog_x)
类型: 机器人学习数据收集与管理框架
支持平台:
- Open-X-Embodiment (https://robotics-transformer-x.github.io/)
- HuggingFace (https://huggingface.co/)

核心特性

高效性: 兼顾速度与内存效率，支持主动元数据和延迟加载轨迹数据
灵活性: 支持分布式数据集分区
云存储: 提供原生云存储支持
可视化: 提供数据集可视化工具 (https://keplerc.github.io/openxvisualizer/)

技术文档

设计文档: https://docs.google.com/document/d/1woLQVLWsySGjFuz8aCsaLoc74dXQgIccnWRemjlNDws/edit#heading=h.irrfcedesnvr

安装方法

bash git clone https://github.com/BerkeleyAutomation/fog_x.git cd fog_x pip install -e .

使用示例

python import fog_x

数据收集

path = "/tmp/output.vla" traj = fog_x.Trajectory(path=path) traj.add(feature="arm_view", value="image1.jpg") traj.close()

数据加载

fog_x.Trajectory(path=path)

示例代码

数据收集与加载: ./examples/data_collection_and_load.py
从Open_X转换: ./examples/openx_loader.py
从H5转换: ./examples/h5_loader.py
运行基准测试: ./benchmarks/openx.py

开发指南

贡献指南: CONTRIBUTING.md

AI搜集汇总

数据集介绍

构建方式

Open-X Embodiment (OXE) 数据集通过Robo-DM工具包构建，采用基于云的高效数据管理方法。Robo-DM利用可扩展二进制元语言（EBML）作为自包含的存储格式，统一处理视觉、语言和动作数据流。数据收集过程中，首先以原始序列化形式存储，随后通过后处理进行压缩和重排，确保时间对齐的数据流高效组织。该方法显著降低了数据传输和存储成本，同时支持灵活的无损和有损压缩选项。

特点

OXE数据集的特点在于其高度多样化的机器人演示轨迹，涵盖多种场景、任务和机器人平台。数据集包含多模态数据流，如视频、文本和数值传感器数据，且支持不同采样率的同步记录。通过Robo-DM的高效压缩技术，数据集大小可减少高达70倍（有损压缩）或3.5倍（无损压缩），同时保持下游任务准确性。此外，内存映射解码缓存技术大幅提升了数据加载速度，比同类框架快50倍。

使用方法

OXE数据集的使用方法包括通过Robo-DM工具包进行数据加载、训练和可视化。数据集与主流深度学习框架（如TensorFlow和PyTorch）无缝集成，支持直接转换为HDF5或RLDS格式。用户可通过简洁的编程接口访问数据，或利用ROS2工具进行实时回放和3D可视化。训练时，Robo-DM的动态资源平衡机制自动优化解码与缓存加载，确保计算资源的高效利用。此外，数据集支持从云端直接下载或本地存储加载，适应不同规模的训练需求。

背景与挑战

背景概述

Open-X Embodiment (OXE) 数据集由加州大学伯克利分校、Google DeepMind等机构的研究团队于2025年推出，旨在为机器人学习提供大规模、多样化的遥操作演示数据。该数据集的核心研究问题聚焦于如何通过海量异构数据（包括多摄像头视频流、文本指令和数值传感器数据）训练基于Transformer的通用机器人策略模型，以实现在新场景、新任务和新机器人平台上的泛化能力。作为机器人学习领域的重要基础设施，OXE为Octo、Open-VLA等前沿模型提供了训练基础，推动了视觉-语言-动作多模态学习范式的发展。数据集采用Reinforcement Learning Datasets (RLDS)格式存储，但原始矩阵存储方式存在显著空间效率瓶颈。

当前挑战

OXE数据集面临双重挑战：在领域问题层面，机器人数据的多模态（视觉、语言、动作）、异构采样率以及时空对齐要求，使得传统单模态数据处理方法难以直接适用；在构建技术层面，原始RLDS格式导致数据体积庞大（单轨迹可达400MB），云存储传输成本高昂（8.9TB数据单次下载费用超1500美元），且现有框架如LeRobot存在文件结构复杂、加载速度慢的问题。具体表现为：(1) 多摄像头视频流与传感器数据的同步存储需要兼顾精度与压缩效率；(2) 不同频率数据流的时间对齐需要特殊处理；(3) 训练时随机访问模式与高压缩比视频解码存在计算资源竞争。这些挑战促使了Robo-DM工具包的开发，其通过EBML容器格式实现了70倍压缩比和50倍加载加速。

常用场景

经典使用场景

Open-X Embodiment (OXE) 数据集在机器人学习领域中被广泛用于训练基于Transformer的视觉-语言-动作模型。其经典使用场景包括多任务机器人操作，如物体抓取、放置、门开启等复杂动作序列的演示数据。通过整合来自不同机器人平台的多模态数据（包括视频流、语言指令和动作序列），OXE为研究者提供了丰富的跨场景泛化能力验证平台。数据集独特的时序对齐特性使得模型能够学习到传感器数据与动作执行之间的精确映射关系。

衍生相关工作

OXE数据集催生了多个机器人学习领域的里程碑式工作。Octo模型利用其80万条演示轨迹训练出首个十亿参数级的通用机器人策略；Open-VLA在此基础上开发了视觉语言动作联合建模框架；而ICRT则通过OXE数据验证了上下文模仿学习的有效性。这些衍生研究共同推动了机器人从单一任务专家向多任务通用体的范式转变，相关成果已应用于工业自动化与家庭服务机器人领域。

数据集最近研究

相关研究论文

1
Robo-DM: Data Management For Large Robot Datasets加利福尼亚大学伯克利分校, 谷歌DeepMind · 2025年

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国陆域及周边逐日1km全天候地表温度数据集（TRIMS LST；2000-2024）

地表温度（Land surface temperature, LST）是地球表面与大气之间界面的重要参量之一。它既是地表与大气能量交互作用的直接体现，又对于地气过程具有复杂的反馈作用。因此，地表温度不仅是气候变化的敏感指示因子和掌握气候变化规律的重要前提，还是众多模型的直接输入参数，在许多领域有广泛的应用，如气象气候、环境生态、水文等。伴随地学及相关领域研究的深入和精细化，学术界对卫星遥感的全天候地表温度（All-weather LST）具有迫切的需求。本数据集的制备方法是增强型的卫星热红外遥感-再分析数据集成方法。方法的主要输入数据为Terra/Aqua MODIS LST产品和GLDAS等数据，辅助数据包括卫星遥感提供的植被指数、地表反照率等。方法充分利用了卫星热红外遥感和再分析数据提供的地表温度高频分量、低频分量以及地表温度的空间相关性，最终重建得到较高质量的全天候地表温度数据集。评价结果表明，本数据集具有良好的图像质量和精度，不仅在空间上无缝，还与当前学术界广泛采用的逐日1 km Terra/Aqua MODIS LST产品在幅值和空间分布上具有较高的一致性。当以MODIS LST为参考时，该数据集在白天和夜间的平均偏差（MBE）为0.09K和-0.03K，偏差标准差（STD）为1.45K和1.17K。基于19个站点实测数据的检验结果表明，其MBE为-2.26K至1.73K，RMSE为0.80K至3.68K，且在晴空与非晴空条件下无显著区别。本数据集的时间分辨率为逐日4次，空间分辨率为1km，时间跨度为2000年-2024年；空间范围包括我国陆域的主要区域（包含港澳台地区，暂不包含我国南海诸岛）及周边区域（72°E-135°E，19°N-55°N）。本数据集的缩写名为TRIMS LST（Thermal and Reanalysis Integrating Moderate-resolution Spatial-seamless LST），以便用户使用。需要说明的是，TRIMS LST的空间子集TRIMS LST-TP（中国西部逐日1 km全天候地表温度数据集（TRIMS LST-TP；2000-2024）V2）同步在国家青藏高原科学数据中心发布，以减少相关用户数据下载和处理的工作量。

国家青藏高原科学数据中心收录

VisDrone 2021

VisDrone2021 数据集由天津大学机器学习与数据挖掘实验室 AISKYEYE 团队收集。基准数据集由 400 个视频片段组成，由 265,228 帧和 10,209 张静态图像组成，由各种无人机摄像头拍摄，涵盖了广泛的方面，包括位置（取自中国相隔数千公里的 14 个不同城市）、环境（城市和乡村）、物体（行人、车辆、自行车等）和密度（稀疏和拥挤的场景）。请注意，数据集是使用各种无人机平台（即具有不同型号的无人机）、在不同场景以及各种天气和照明条件下收集的。这些框架使用超过 260 万个边界框或经常感兴趣的目标点进行手动注释，例如行人、汽车、自行车和三轮车。为了更好地利用数据，还提供了一些重要的属性，包括场景可见性、对象类别和遮挡。

OpenDataLab 收录

中国行政区划数据

本项目为中国行政区划数据，包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局，存储格式为sqlite3 db文件，支持直接使用数据库连接工具打开。

github 收录

VisDrone2019

VisDrone2019数据集由AISKYEYE团队在天津大学机器学习和数据挖掘实验室收集，包含288个视频片段共261,908帧和10,209张静态图像。数据集覆盖了中国14个不同城市的城市和乡村环境，包括行人、车辆、自行车等多种目标，以及稀疏和拥挤场景。数据集使用不同型号的无人机在各种天气和光照条件下收集，手动标注了超过260万个目标边界框，并提供了场景可见性、对象类别和遮挡等重要属性。

github 收录

CWD30

CWD30包含超过219,770张20种杂草和10种作物的高分辨率图像，涵盖了不同的生长阶段、多个观察角度和环境条件。这些图像是从不同地理位置和季节的多样化农业领域收集的，确保了数据集的代表性。

github 收录