five

rbo_oxe_base_language_table

收藏
Hugging Face2025-08-14 更新2025-08-15 收录
下载链接:
https://huggingface.co/datasets/saaduddinM/rbo_oxe_base_language_table
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个使用LeRobot创建的任务剪枝子集,包含RGB视频、状态和动作信息。数据集的帧率为10FPS,分辨率为360×640,编码格式为AV1,遵循Apache-2.0许可。该数据集经过重新索引,每个任务最多包含3个轨迹,并统一了相机关键字。数据集提供了222,845个片段,共计3,637,100帧,涵盖108,446个独特任务。

这是一个使用LeRobot创建的任务剪枝子集,包含RGB视频、状态和动作信息。数据集的帧率为10FPS,分辨率为360×640,编码格式为AV1,遵循Apache-2.0许可。该数据集经过重新索引,每个任务最多包含3个轨迹,并统一了相机关键字。数据集提供了222,845个片段,共计3,637,100帧,涵盖108,446个独特任务。
创建时间:
2025-08-14
原始信息汇总

数据集概述

基本信息

  • 名称: Language Table (LeRobot) — Task-Pruned, Reindexed Subset
  • 许可证: apache-2.0
  • 任务类别: robotics
  • 标签: LeRobot, language_table, rlds, openx, xarm

数据集来源

数据集特点

  • 机器人类型: xArm
  • 模态: RGB视频 + 状态 + 动作
  • 帧率与分辨率: 10 FPS, 360×640, AV1
  • 数据格式: Parquet文件 + MP4视频文件

数据集差异

  • 任务保留比例: 约0.85%的唯一任务(均匀随机采样)
  • 轨迹上限: 每个保留任务最多8条轨迹
  • 统一相机键: observation.images.image
  • 重新索引: 重新构建episode_indextask_index
  • 重建元数据: info.json, tasks.jsonl, episodes.jsonl, stats.json

数据集统计

  • 总集数: 222,845
  • 总帧数: 3,637,100
  • 唯一任务数: 108,446
  • 视频数: 222,845(每集一个视频)
  • 数据块数: 223(每块1000集)
  • 帧率: 10 FPS

数据集结构

  • 数据路径: data/chunk-{episode_chunk:03d}/episode_{episode_index:06d}.parquet
  • 视频路径: videos/chunk-{episode_chunk:03d}/{video_key}/episode_{episode_index:06d}.mp4

特征描述

  • observation.state: 浮点型数组,形状[8],包含电机状态(x, y, z, roll, pitch, yaw, pad, gripper)
  • action: 浮点型数组,形状[7],包含电机动作(x, y, z, roll, pitch, yaw, gripper)
  • timestamp: 浮点型数组,形状[1]
  • frame_index: 整型数组,形状[1]
  • episode_index: 整型数组,形状[1]
  • index: 整型数组,形状[1]
  • task_index: 整型数组,形状[1]
  • observation.images.image: 视频格式,形状[360, 640, 3],包含高度、宽度、RGB信息,视频编码为AV1
搜集汇总
数据集介绍
main_image_url
构建方式
在机器人学习领域,高质量的数据集对于算法训练至关重要。该数据集基于LeRobot平台构建,通过对原始数据集IPEC-COMMUNITY/language_table_lerobot进行任务文本子采样和重构,保留了约0.85%的独特任务,并限制每个任务最多包含8条轨迹。数据重构过程中统一了摄像头键值,重新索引了所有片段,并重建了任务索引和元数据文件,确保了数据内部的一致性和完整性。
特点
该数据集以xArm机器人为研究对象,提供了丰富的多模态数据,包括RGB视频、机器人状态和动作信息。视频数据以10帧每秒的速率采集,分辨率为360×640,采用AV1编码格式。数据集包含222,845个片段,3,637,100帧图像,覆盖108,446个独特任务,每个片段对应一个独立的视频文件。数据结构的精心设计使得机器人的运动状态、动作指令和时间序列信息能够高效存储和访问。
使用方法
研究者可以通过Parquet文件访问数值和时间序列数据,而视频数据则存储在MP4格式文件中。数据集采用分块存储策略,将数据划分为223个块,每块包含1000个片段。使用前需仔细阅读元数据文件,了解数据结构、特征名称和视频路径等信息。该数据集特别适合用于机器人语言指令理解、动作预测等研究任务,能够为机器人学习算法提供丰富的训练样本。
背景与挑战
背景概述
rbo_oxe_base_language_table数据集是机器人学习领域的一项重要资源,专注于语言指令与机器人操作任务的关联研究。该数据集由LeRobot团队基于IPEC-COMMUNITY/language_table_lerobot原始数据集构建,采用xArm机器人平台采集数据,包含RGB视频、状态信息和动作指令等多模态数据。数据集以10FPS的帧率记录360×640分辨率的视频,采用AV1编码格式,为机器人任务学习提供了丰富的视觉与动作对应关系。其核心研究问题在于探索自然语言指令如何有效地指导机器人完成复杂操作任务,对推动人机交互和具身智能发展具有显著意义。
当前挑战
该数据集面临的挑战主要体现在两个方面:在领域问题层面,如何准确理解自然语言指令并映射到机器人动作空间仍存在语义鸿沟,特别是处理多义词和上下文依赖的指令时;在构建过程中,数据采集需协调视觉、状态和动作等多模态信息的同步,且原始数据规模庞大导致存储与处理困难。数据集通过任务文本子采样和轨迹数量限制来优化规模,但可能损失部分任务多样性。视频数据统一编码格式和重新索引虽提升了一致性,但也增加了数据预处理复杂度。
常用场景
经典使用场景
在机器人学习与语言指令交互领域,rbo_oxe_base_language_table数据集为研究者提供了丰富的多模态数据支持。该数据集通过xArm机器人采集的RGB视频、状态信息及动作序列,构建了一个包含10万多个独特任务的语料库。其经典使用场景集中在基于语言指令的机器人动作生成研究,研究者可利用视频帧与对应动作的映射关系,探索自然语言到机器人动作的端到端学习范式。
解决学术问题
该数据集有效解决了机器人学习中的多模态对齐与长序列建模问题。通过提供统一索引的轨迹数据,研究者能够深入分析语言指令与机器人动作间的时序关联性。其任务剪枝策略保留了最具代表性的样本,为小样本学习、迁移学习等前沿方向提供了基准数据。在具身智能研究中,该数据集填补了语言-动作-视觉三元关联数据的空白。
衍生相关工作
该数据集衍生出多个机器人学习领域的突破性研究。基于其重构的LeRobot框架被广泛应用于模仿学习研究,任务索引机制启发了分层强化学习的创新方法。部分团队利用其多模态特性开发了视觉-语言-动作联合嵌入模型,在ICRA等顶级会议产生系列成果。数据集提供的标准化评估协议,已成为机器人任务泛化能力测试的重要基准。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作