Open Interleaved X-Embodiment Dataset

Name: Open Interleaved X-Embodiment Dataset
Creator: 上海交通大学，加州大学伯克利分校，北卡罗来纳大学教堂山分校
Published: 2025-05-04 23:25:23
License: 暂无描述

arXiv2025-05-04 更新2025-05-13 收录

下载链接：

http://arxiv.org/abs/2505.02152v1

下载链接

链接失效反馈

官方服务：

资源简介：

Open Interleaved X-Embodiment Dataset是一个包含超过210,000个图像-文本轨迹的大规模真实世界数据集，由高质量的多模态语言模型（MLLMs）的合作管道从Open X-Embodiment数据集中自动生成。该数据集包含13,000,000帧，覆盖3,500个独特的对象和多种任务类型。该数据集的创建过程包括指令解析、开放词汇检测和数据质量验证三个主要步骤，旨在为机器人操作提供灵活的、无需模型的、零样本指令跟随能力。

The Open Interleaved X-Embodiment Dataset is a large-scale real-world dataset containing over 210,000 image-text trajectories, which is automatically generated from the Open X-Embodiment Dataset via a collaborative pipeline of high-quality multimodal large language models (MLLMs). This dataset comprises 13,000,000 frames, covers 3,500 unique objects, and encompasses multiple task types. Its creation process includes three main steps: instruction parsing, open-vocabulary detection, and data quality validation, aiming to provide flexible, model-free, zero-shot instruction-following capabilities for robotic manipulation.

提供机构：

上海交通大学，加州大学伯克利分校，北卡罗来纳大学教堂山分校

创建时间：

2025-05-04

搜集汇总

数据集介绍

构建方式

Open Interleaved X-Embodiment Dataset的构建采用了高度自动化的流程，通过先进的多模态大语言模型（MLLMs）协作管道，将Open X-Embodiment数据集中的纯文本指令转化为图像-文本交错的指令。具体步骤包括指令解析、开放词汇检测和数据质量验证。首先，利用Qwen2.5模型从语言指令中提取关键对象；随后，采用OWLv2开放词汇检测器从轨迹帧中定位并裁剪目标对象；最后，通过Qwen2.5-VL模型验证检测结果，确保数据的高质量和准确性。这一流程最终生成了包含21万条轨迹和1300万帧的大规模数据集，覆盖了3500种独特对象和多样化的任务类型。

特点

Open Interleaved X-Embodiment Dataset以其多样性和高质量著称，数据集中的图像-文本交错指令通过自动化流程从真实机器人演示中生成，确保了数据的真实性和丰富性。该数据集不仅涵盖了广泛的物体类别和任务类型，还支持多种视觉指令形式，如用户提供的网络图片和手绘草图。此外，数据集的大规模和多样性为训练具有强泛化能力的多模态模型提供了坚实基础，使其在未见过的物体和环境中表现出色。

使用方法

Open Interleaved X-Embodiment Dataset主要用于训练和评估能够处理图像-文本交错指令的视觉-语言-动作（VLA）模型。研究人员可以通过该数据集训练模型，使其能够理解和执行复杂的多模态指令，如基于草图的指令或网络图片指令。数据集的使用方法包括加载预处理的图像-文本交错指令，输入到VLA模型中进行训练或推理。通过这种方式，模型能够在仿真和真实机器人实验中展现出强大的零样本泛化能力，适用于多样化的实际应用场景。

背景与挑战

背景概述

Open Interleaved X-Embodiment Dataset是由上海交通大学、加州大学伯克利分校和北卡罗来纳大学教堂山分校的研究团队于2025年提出的一个大规模多模态机器人操作数据集。该数据集旨在解决机器人操作领域中视觉-语言-动作(VLA)模型在处理交错图像-文本指令方面的不足。数据集包含超过21万条交互轨迹和1300万帧图像，覆盖3500个独特对象，通过自动化流程将Open X-Embodiment数据集中的纯文本指令转换为交错图像-文本指令。这一创新为Interleave-VLA框架的发展奠定了基础，显著提升了机器人模型在未见对象和环境中的泛化能力，推动了机器人基础模型的发展。

当前挑战

该数据集面临的主要挑战包括：1) 领域问题挑战：传统VLA模型仅支持文本指令，难以处理复杂的多模态指令，限制了机器人操作的灵活性和精确性；2) 构建过程挑战：需要开发自动化流程从纯文本指令生成高质量的交错图像-文本指令，确保对象检测和分割的准确性，特别是对于形状不规则或颜色独特的物体。此外，数据集的规模和质量对模型的泛化能力至关重要，需要平衡计算资源与数据多样性之间的关系。

常用场景

经典使用场景

在机器人操作与多模态学习领域，Open Interleaved X-Embodiment Dataset 的经典应用场景主要体现在其支持视觉-语言-动作（VLA）模型的训练与评估。该数据集通过融合图像与文本交错的指令序列，为机器人提供了更直观的任务理解方式。例如，在模拟环境SIMPLER和真实机器人实验中，研究者利用该数据集训练模型执行如“将茄子放入盘子”等任务，其中目标物体和目的地可通过图像直接指定，显著提升了任务描述的精确性。这种交错的指令格式不仅适用于标准操作任务，还能有效处理用户提供的草图、网络图片等非结构化输入，展现了极强的场景适应性。

衍生相关工作

该数据集催生了系列创新研究：Interleave-VLA框架通过最小化架构修改实现了现有VLA模型对交错指令的支持；基于OWLv2检测器和Segment Anything的数据生成管道为多模态数据集构建提供了新范式。相关工作如RT-Sketch探索了手绘草图指令的机器人理解，CoT-VLA则结合思维链推理进一步提升了决策可解释性。这些衍生研究共同推动了从单一文本指令到多模态交互的机器人学习范式转变，为具身智能发展开辟了新方向。

数据集最近研究