five

kai0_v1

收藏
Hugging Face2026-01-19 更新2026-01-20 收录
下载链接:
https://huggingface.co/datasets/OpenDriveLab-org/kai0_v1
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个专注于机器人操作服装的复杂任务数据集,包含三个主要任务:FlattenFold(展开并折叠T恤)、HangCloth(挂衣服)和TeeShirtSort(T恤分类和整理)。数据集总共有23,751个episodes,其中19,608个为基础演示,4,143个为通过DAgger算法收集的恢复轨迹。数据集结构包括parquet格式的数据文件和mp4格式的视频文件,详细记录了机器人手臂的操作状态、动作、时间戳等信息。每个任务的数据分为base和dagger两个子集,base包含原始的演示轨迹,dagger包含通过迭代DAgger收集的恢复轨迹。数据集还提供了任务的语言提示,可用于语言条件策略训练。
创建时间:
2026-01-18
原始信息汇总

Kai0 数据集概述

数据集基本信息

  • 数据集名称: Kai0
  • 发布者: OpenDriveLab-org
  • 许可证: CC BY-NC-ND 4.0
  • 任务类别: 机器人学
  • 相关标签: LeRobot
  • 数据格式: Parquet 文件
  • 创建工具: 使用 LeRobot 创建

数据集规模与内容

  • 总时长: 约 130 小时的真实世界场景数据。
  • 总情节数: 23,751 个情节。
  • 包含三个主要任务:
    1. FlattenFold (展平折叠)
      • 任务描述: 操作机械臂展开随机扔在桌上、呈现随机皱褶状态的 T 恤,然后将其折叠。
      • 数据量: 6,512 个情节 (基础: 3,055, DAgger: 3,457)。
    2. HangCloth (挂衣)
      • 任务描述: 操作机械臂将衣架穿过随机放置在桌上的衣物,然后将其挂到杆上。
      • 数据量: 7,640 个情节 (基础: 6,954, DAgger: 686)。
    3. TeeShirtSort (T恤分类)
      • 任务描述: 从洗衣篮中随机取出一件衣物,判断是 T 恤还是衬衫。若是 T 恤则折叠;若是衬衫则露出衣领,然后将其推到桌子一侧。
      • 数据量: 5,988 个情节 (全部为基础数据)。

数据集结构

目录层次

数据按任务组织,每个任务下分为 basedagger 两个子集。

  • base: 包含机器人手臂执行衣物整理任务的原始演示轨迹。
  • dagger: 包含通过迭代 DAgger 收集的在线策略恢复轨迹,旨在补充静态演示中缺失的故障恢复模式。

Kai0-data/ ├── FlattenFold/ │ ├── base/ │ └── dagger/ ├── HangCloth/ │ ├── base/ │ └── dagger/ ├── TeeShirtSort/ │ ├── base/ │ └── dagger/ └── README.md

数据文件详情

每个任务的 basedagger 目录下包含:

  • data/: 存储以 Parquet 格式保存的情节数据文件 (如 episode_000000.parquet)。
  • videos/: 存储来自多个视角 (如 top_head, hand_left, hand_right) 的视频文件 (MP4 格式)。
  • meta/: 存储元数据文件。
    • info.json: 包含数据集基本信息、特征定义和路径模板。
    • episodes.jsonl: 情节信息。
    • tasks.jsonl: 任务语言提示 (自然语言指令),用于语言条件策略训练。
    • episodes_stats.jsonl: 情节统计信息。

特征字段 (Parquet 文件)

字段名 形状 含义
observation.state [N, 14] 机器人状态。左臂关节角 [:, :6],右臂关节角 [:, 7:13];左夹爪开合范围 [:, 6],右夹爪开合范围 [:, 13]
action [N, 14] 机器人动作。格式同 observation.state
timestamp [N, 1] 自情节开始以来经过的时间 (秒)。
frame_index [N, 1] 当前情节内的帧索引 (从0开始)。
episode_index [N, 1] 该帧所属的情节索引。
index [N, 1] 数据集中所有帧的全局唯一索引。
task_index [N, 1] 标识正在执行的任务类型的索引。

视频信息

  • 分辨率: 480x640
  • 帧率: 30 FPS
  • 编码: AV1
  • 像素格式: yuv420p
  • 包含视角: top_head (顶部头部), hand_left (左手), hand_right (右手)。

数据下载与加载

下载方式

  • Python脚本: 可使用 huggingface_hub 库的 hf_hub_downloadsnapshot_download 函数下载特定文件或整个数据集。
  • 终端 CLI: 可使用 hf download 命令进行下载。

加载方式 (使用 LeRobot)

  • LeRobot 版本 < 0.4.0: 从相应路径导入 LeRobotDataset 类进行加载。
  • LeRobot 版本 >= 0.4.0: 需要先将数据集从 v2.1 迁移到 v3.0 格式,然后加载。

许可证与引用

  • 许可证: CC BY-NC-ND 4.0。
  • 引用信息: 页面提供了 BibTeX 引用格式的占位符,具体内容待填充。
搜集汇总
数据集介绍
main_image_url
构建方式
在机器人操作领域,高质量数据集的构建对于推动智能体学习复杂任务至关重要。kai0_v1数据集依托LeRobot框架,在真实世界场景中采集了约130小时的机器人操作数据,涵盖了衣物处理相关的三项核心任务:平整折叠、悬挂衣物以及T恤分类整理。数据采集过程采用双轨制策略,一方面通过基础演示轨迹记录标准操作流程,另一方面引入DAgger算法动态收集策略迭代中的恢复轨迹,从而有效弥补静态演示中缺失的故障恢复模式,最终整合形成包含超过两万三千条轨迹的高质量数据集。
特点
该数据集在机器人操作数据领域展现出鲜明的结构化特征与多模态属性。其数据组织遵循清晰的分层目录体系,按任务划分为FlattenFold、HangCloth和TeeShirtSort三大类别,每类下进一步区分为基础演示与DAgger增强两个子集。数据内容方面,不仅包含机器人末端执行器的状态观测与动作指令等多维时序数据,还同步录制了来自顶部、左、右三个视角的高清操作视频,帧率稳定在30fps,为视觉-动作联合建模提供了丰富素材。此外,数据集通过tasks.jsonl文件提供了自然语言任务描述,支持语言条件化策略的训练与研究。
使用方法
为便利研究社区的使用,数据集提供了多样化的加载与访问途径。用户可通过Hugging Face Hub直接下载整个数据集或特定文件,亦能利用datasets库的load_dataset函数实现一键加载。对于专注于机器人学习的研究者,数据集深度集成于LeRobot生态系统,不同版本的LeRobot库提供了专属接口进行数据读取与处理。需注意的是,若使用0.4.0及以上版本的LeRobot,需预先执行数据格式从v2.1至v3.0的迁移转换,具体流程可参照官方文档指引。这种多层次、兼容性强的访问设计,确保了数据集能够灵活适配于离线分析、在线训练等多种科研与应用场景。
背景与挑战
背景概述
在机器人操作领域,灵巧且可泛化的衣物处理任务长期被视为一项极具挑战性的研究课题。kai0_v1数据集由OpenDriveLab-org团队创建,依托LeRobot平台构建,旨在为机器人衣物折叠、悬挂与分类等复杂操作提供大规模、高质量的真实世界演示数据。该数据集涵盖了超过130小时的真实场景交互,包含FlattenFold、HangCloth和TeeShirtSort三项核心任务,共计23,751条轨迹。其核心研究问题聚焦于如何通过模仿学习与数据驱动的方法,赋予机器人处理非刚性、高自由度物体(如衣物)的自主操作能力,对推动家庭服务机器人的实用化进程具有显著影响力。
当前挑战
kai0_v1数据集致力于解决机器人非刚性物体操作这一核心领域问题,其首要挑战在于衣物状态的无限可变性与物理交互的复杂性,要求模型具备强大的感知与规划泛化能力。其次,数据构建过程面临双重困难:一方面,收集大规模、高保真的双臂机器人操作演示数据成本高昂且耗时;另一方面,为确保策略的鲁棒性,需通过DAgger等算法主动收集失败恢复轨迹,以弥补静态演示数据中缺失的纠错模式,这一过程对数据采集的自动化与系统性提出了严峻考验。
常用场景
经典使用场景
在机器人操作与具身智能领域,kai0_v1数据集为衣物整理任务提供了丰富的真实世界交互轨迹。该数据集最经典的使用场景是训练和评估双手机器人臂在非结构化环境下的灵巧操作策略,特别是针对衣物的折叠、悬挂与分类任务。研究者可利用其包含的多视角视频流、机器人状态与动作序列,构建端到端的模仿学习或强化学习模型,使机器人能够从视觉观察中理解衣物的物理状态并执行精细的抓取、铺平和折叠等动作。
衍生相关工作
围绕kai0_v1数据集,已衍生出多项经典研究工作,主要集中在视觉运动策略学习领域。研究者利用其多模态数据流,开发了结合视觉Transformer与动作预测网络的端到端模型。部分工作专注于从数据中提取衣物状态的关键点或语义表示,以提升策略的可解释性与泛化性。此外,基于其DAgger数据,涌现出关于离线强化学习、逆动力学模型以及交互式模仿学习的新方法,这些工作共同推动了机器人灵巧操作技术的边界。
数据集最近研究
最新研究方向
在机器人操作领域,柔性物体的灵巧操控一直是极具挑战性的前沿课题。kai0_v1数据集以其超过130小时的真实世界场景记录,聚焦于衣物折叠、悬挂与分类等复杂任务,为基于学习的机器人策略研究提供了宝贵的大规模多模态数据。当前研究热点集中于利用该数据集训练端到端的视觉-语言-动作模型,探索在动态非结构化环境中实现鲁棒且泛化性强的操作技能。结合迭代DAgger方法收集的失败恢复轨迹,该数据集正推动模仿学习与强化学习融合框架的发展,旨在提升机器人在家庭服务等实际场景中的自主决策与适应能力,对推动具身智能迈向实用化阶段具有深远意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作