onetwovla-dataset

Hugging Face2025-05-22 更新2025-05-23 收录

下载链接：

https://huggingface.co/datasets/Richard-Nai/onetwovla-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集包含使用UMI平台收集并转换为LeRobot格式的机器人数据，以及用于论文《OneTwoVLA: A Unified Vision-Language-Action Model with Adaptive Reasoning》的合成视觉语言数据。数据集涉及两个主要任务：Cocktail和Open-World Visual Grounding。具体包括299个实验室收集的真实世界演示，以及932个跨越16个环境的机器人演示，其中包含约180个独特对象。视觉语言部分包含6000个合成图像，这些图像经过了鱼眼失真处理和/或机器人夹爪合成。部分数据集还包括推理注释。

创建时间：

2025-05-16

原始信息汇总

OneTwoVLA 数据集概述

数据集基本信息

任务类别: 机器人技术 (robotics)
数据规模: 10万到100万条数据之间 (100K<n<1M)

数据集来源

数据收集设备: UMI
数据格式: 转换为 LeRobot 格式
相关论文: OneTwoVLA: A Unified Vision-Language-Action Model with Adaptive Reasoning

主要任务与数据内容

1. Cocktail任务

数据量: 299个真实世界演示
特点: 包含推理标注 (cot.json)

2. Open-World Visual Grounding任务

数据文件夹: wild_move_to
- 真实机器人数据: 932个演示，覆盖16个环境，约180个独特物体
- 合成视觉语言数据: 6,000张合成图像
  - 增强处理: 鱼眼畸变和/或合成机器人夹爪
- 推理标注: cot.json
变体版本: wild_move_to_no_vl
- 内容: 与wild_move_to相同，但不包含合成视觉语言数据

3. 独立视觉语言数据包

文件: open_world_visual_grounding_vl_data.tar.gz
- 包含:
  - 6,000张合成图像 ({0...5999}.png)
  - 对应的推理标注文件 ({0...5999}_gemini.txt)

搜集汇总

数据集介绍

构建方式

在机器人操作研究领域，onetwovla-dataset通过精心设计的实验流程构建而成。该数据集采用UMI机械臂在实验室环境中采集真实演示数据，涵盖鸡尾酒调制和开放世界视觉定位两大任务场景。鸡尾酒任务包含299次真实世界演示，开放世界视觉定位任务则收集了932次跨16个环境的演示数据，涉及约180种独特物体。同时，数据集还融合了6000张合成视觉语言数据，通过鱼眼畸变和机器人夹爪合成等技术增强数据多样性。

特点

该数据集展现出多模态融合的显著特征，将真实机器人操作数据与合成视觉语言数据有机结合。其独特之处在于为每个演示样本提供了精细的推理标注，形成完整的思维链条记录。数据规模达到十万至百万级别，覆盖广泛的物体类别和环境场景，具备良好的泛化能力。特别值得注意的是，数据集提供了包含视觉语言数据和不含视觉语言数据的两种版本，为不同研究需求提供了灵活选择。

使用方法

研究人员可借助LeRobot数据格式直接加载和使用该数据集，实现与现有机器人学习框架的无缝对接。数据集支持多种机器人学习任务，包括模仿学习、视觉语言导航和动作规划等。对于鸡尾酒调制任务，可利用提供的推理标注进行策略学习分析；开放世界视觉定位任务则可通过合成图像与真实数据的结合，训练鲁棒的视觉感知模型。数据集还支持消融实验设计，通过对比不同数据子集的效果，深入探究视觉语言数据对模型性能的影响。

背景与挑战

背景概述

在具身智能与机器人操作研究领域，多模态模型的融合成为推动技术进步的关键。onetwovla-dataset由相关研究团队于2024年构建，旨在支持视觉-语言-动作统一模型的发展。该数据集聚焦于机器人执行复杂任务时的感知与决策过程，涵盖鸡尾酒调制与开放世界视觉定位两大核心场景。通过整合真实机器人演示数据与合成视觉语言数据，为自适应推理研究提供了重要支撑，显著提升了机器人对动态环境的交互能力。

当前挑战

构建过程中面临多模态数据对齐的复杂性，真实机器人演示需同步记录动作轨迹与视觉上下文，而合成数据需模拟物理交互的真实性。开放世界视觉定位任务要求模型泛化至未见物体与环境，这对数据多样性与标注精度提出极高要求。此外，推理注释的生成需平衡语义丰富度与计算效率，跨场景任务迁移则依赖数据结构的统一表征。

常用场景

经典使用场景

在机器人视觉语言动作领域，onetwovla-dataset通过真实世界演示与合成数据相结合，为模型训练提供了丰富场景。该数据集特别适用于鸡尾酒调制和开放世界视觉定位任务，其中真实机器人演示覆盖多样环境与物体，配合合成图像增强数据多样性，有效支持多模态模型的端到端学习与推理过程。

衍生相关工作

基于该数据集衍生的经典工作包括UMI抓取系统的行为克隆研究，以及LeRobot框架下的多任务学习模型。这些研究通过融合视觉语言推理链，发展了分层决策网络架构，为后续的具身智能研究提供了可复现的实验基础与方法论支撑。

数据集最近研究