five

onetwovla-dataset

收藏
Hugging Face2025-05-22 更新2025-05-23 收录
下载链接:
https://huggingface.co/datasets/Richard-Nai/onetwovla-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
本数据集包含使用UMI平台收集并转换为LeRobot格式的机器人数据,以及用于论文《OneTwoVLA: A Unified Vision-Language-Action Model with Adaptive Reasoning》的合成视觉语言数据。数据集涉及两个主要任务:Cocktail和Open-World Visual Grounding。具体包括299个实验室收集的真实世界演示,以及932个跨越16个环境的机器人演示,其中包含约180个独特对象。视觉语言部分包含6000个合成图像,这些图像经过了鱼眼失真处理和/或机器人夹爪合成。部分数据集还包括推理注释。
创建时间:
2025-05-16
原始信息汇总

OneTwoVLA 数据集概述

数据集基本信息

  • 任务类别: 机器人技术 (robotics)
  • 数据规模: 10万到100万条数据之间 (100K<n<1M)

数据集来源

  • 数据收集设备: UMI
  • 数据格式: 转换为 LeRobot 格式
  • 相关论文: OneTwoVLA: A Unified Vision-Language-Action Model with Adaptive Reasoning

主要任务与数据内容

1. Cocktail任务

  • 数据量: 299个真实世界演示
  • 特点: 包含推理标注 (cot.json)

2. Open-World Visual Grounding任务

  • 数据文件夹: wild_move_to

    • 真实机器人数据: 932个演示,覆盖16个环境,约180个独特物体
    • 合成视觉语言数据: 6,000张合成图像
      • 增强处理: 鱼眼畸变和/或合成机器人夹爪
    • 推理标注: cot.json
  • 变体版本: wild_move_to_no_vl

    • 内容: 与wild_move_to相同,但不包含合成视觉语言数据

3. 独立视觉语言数据包

  • 文件: open_world_visual_grounding_vl_data.tar.gz
    • 包含:
      • 6,000张合成图像 ({0...5999}.png)
      • 对应的推理标注文件 ({0...5999}_gemini.txt)
搜集汇总
数据集介绍
main_image_url
构建方式
在机器人操作研究领域,onetwovla-dataset通过精心设计的实验流程构建而成。该数据集采用UMI机械臂在实验室环境中采集真实演示数据,涵盖鸡尾酒调制和开放世界视觉定位两大任务场景。鸡尾酒任务包含299次真实世界演示,开放世界视觉定位任务则收集了932次跨16个环境的演示数据,涉及约180种独特物体。同时,数据集还融合了6000张合成视觉语言数据,通过鱼眼畸变和机器人夹爪合成等技术增强数据多样性。
特点
该数据集展现出多模态融合的显著特征,将真实机器人操作数据与合成视觉语言数据有机结合。其独特之处在于为每个演示样本提供了精细的推理标注,形成完整的思维链条记录。数据规模达到十万至百万级别,覆盖广泛的物体类别和环境场景,具备良好的泛化能力。特别值得注意的是,数据集提供了包含视觉语言数据和不含视觉语言数据的两种版本,为不同研究需求提供了灵活选择。
使用方法
研究人员可借助LeRobot数据格式直接加载和使用该数据集,实现与现有机器人学习框架的无缝对接。数据集支持多种机器人学习任务,包括模仿学习、视觉语言导航和动作规划等。对于鸡尾酒调制任务,可利用提供的推理标注进行策略学习分析;开放世界视觉定位任务则可通过合成图像与真实数据的结合,训练鲁棒的视觉感知模型。数据集还支持消融实验设计,通过对比不同数据子集的效果,深入探究视觉语言数据对模型性能的影响。
背景与挑战
背景概述
在具身智能与机器人操作研究领域,多模态模型的融合成为推动技术进步的关键。onetwovla-dataset由相关研究团队于2024年构建,旨在支持视觉-语言-动作统一模型的发展。该数据集聚焦于机器人执行复杂任务时的感知与决策过程,涵盖鸡尾酒调制与开放世界视觉定位两大核心场景。通过整合真实机器人演示数据与合成视觉语言数据,为自适应推理研究提供了重要支撑,显著提升了机器人对动态环境的交互能力。
当前挑战
构建过程中面临多模态数据对齐的复杂性,真实机器人演示需同步记录动作轨迹与视觉上下文,而合成数据需模拟物理交互的真实性。开放世界视觉定位任务要求模型泛化至未见物体与环境,这对数据多样性与标注精度提出极高要求。此外,推理注释的生成需平衡语义丰富度与计算效率,跨场景任务迁移则依赖数据结构的统一表征。
常用场景
经典使用场景
在机器人视觉语言动作领域,onetwovla-dataset通过真实世界演示与合成数据相结合,为模型训练提供了丰富场景。该数据集特别适用于鸡尾酒调制和开放世界视觉定位任务,其中真实机器人演示覆盖多样环境与物体,配合合成图像增强数据多样性,有效支持多模态模型的端到端学习与推理过程。
衍生相关工作
基于该数据集衍生的经典工作包括UMI抓取系统的行为克隆研究,以及LeRobot框架下的多任务学习模型。这些研究通过融合视觉语言推理链,发展了分层决策网络架构,为后续的具身智能研究提供了可复现的实验基础与方法论支撑。
数据集最近研究
最新研究方向
在具身智能与机器人学习领域,onetwovla-dataset凭借其统一的视觉-语言-动作多模态架构,正推动自适应推理能力的前沿探索。该数据集通过真实机器人演示与合成视觉语言数据的有机结合,为开放世界视觉定位任务提供了丰富的场景泛化基础。当前研究热点聚焦于跨模态表征对齐与因果推理机制的深度融合,特别是在动态环境下的物体交互与任务规划方面展现出突破潜力。这类工作显著提升了机器人在非结构化环境中的语义理解与动作执行连贯性,为构建通用型机器人智能系统奠定了数据基石。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作