agibot-world/AgiBotWorld2026

Name: agibot-world/AgiBotWorld2026
Creator: agibot-world
Published: 2026-04-25 21:33:14
License: 暂无描述

Hugging Face2026-04-25 更新2026-04-05 收录

下载链接：

https://hf-mirror.com/datasets/agibot-world/AgiBotWorld2026

下载链接

链接失效反馈

官方服务：

资源简介：

随着机器人学研究进入真实世界场景，对真实、高质量数据的需求日益迫切。AGIBOT WORLD 2026数据集基于大量真实世界场景构建，系统覆盖了具身智能的关键研究方向，旨在推动下一代具身智能体的发展。该数据集100%来自真实世界环境，涵盖商业空间、家庭和其他通用场景，通过自由收集模式在AGIBOT G2机器人平台上收集，为开发者提供结构化、精确标注的高质量数据。数字孪生技术被用于在仿真环境中构建1:1比例的场景进行数据收集，仿真数据同时在GenieSim项目中开源。

提供机构：

agibot-world

搜集汇总

数据集介绍

构建方式

在具身智能迈向现实世界应用的关键阶段，AgiBotWorld2026数据集应运而生。该数据集完全采集自真实商业与家庭环境，依托AGIBOT G2机器人平台，通过自由采集模式系统性地收集了涵盖长视野任务的交互数据。构建过程中，团队运用数字孪生技术在仿真环境中创建了1:1的场景复现，确保数据在真实性与结构化之间取得平衡。所有数据均以Apache Parquet格式存储完整事件轨迹，并辅以多视角MP4视频流，形成了原始数据与仿真数据协同开源的双重体系。

特点

该数据集的核心特征在于其多层次、细粒度的标注体系。除了遵循LeRobot v2.1标准结构外，数据集创新性地引入了三层标注：任务帧层提供子任务级自然语言指令与时间边界；二维边界框层标注交互物体的类别与空间位置；指令片段层则进一步分解为技能级步骤描述。这种从宏观任务到微观动作的标注粒度，为分层策略学习、语言条件控制以及视觉定位研究提供了丰富监督信号。数据集完全基于真实场景，覆盖多样化通用环境，确保了数据的生态效度与泛化潜力。

使用方法

研究者可通过两种模式灵活使用该数据集。在原始格式模式下，用户可直接读取meta/目录下的元数据文件，利用info.json中的多级标注信息开展分层策略或任务规划研究。若需适配标准LeRobot训练流程，则可运行配套的split_episode.py脚本，将长视野事件按子任务指令自动分割为独立事件，并保持视频与状态数据的同步切分。数据加载遵循标准流程：首先解析元数据模式，继而通过路径模板读取Parquet文件与对应视频流，实现高效的多模态数据访问。

背景与挑战

背景概述

在具身智能研究迈向真实世界场景的进程中，对高质量、真实环境数据的需求日益迫切。AgiBotWorld2026数据集应运而生，由AgiBot World团队于2026年发布，旨在为下一代具身智能体提供动力。该数据集基于AGIBOT G2机器人平台，在完全真实的商业与家庭等多场景中，通过自由采集模式系统性地构建，涵盖了长时程任务执行与多模态交互数据。其核心研究问题聚焦于如何让机器人从实验室环境迁移至复杂现实世界，完成如商品补货等精细操作任务，对推动机器人模仿学习与分层策略研究具有显著影响力。

当前挑战

该数据集致力于解决具身智能在真实场景中执行长时程、多步骤任务的挑战，例如在动态、非结构化的环境中进行精准的物品抓取与放置。这些任务要求机器人具备高级感知、规划与执行能力，并需处理视觉变化、物理交互不确定性以及指令的细粒度对齐。在构建过程中，团队面临真实数据采集的复杂性，包括在多样环境中确保数据的一致性与高质量标注，同时利用数字孪生技术同步生成仿真数据，以实现大规模、结构化且精准注释的数据集，支撑从原始观察到动作输出的端到端学习。

常用场景

经典使用场景

在具身智能领域，AgiBotWorld2026数据集为模仿学习研究提供了真实世界的基准测试平台。该数据集通过AGIBOT G2机器人平台在商业空间和家庭等真实环境中采集，包含多视角视频流、机器人状态向量及精细的动作标注。研究者可基于其多层次标注结构——从任务级到技能级的自然语言指令，训练端到端的视觉运动策略模型，探索长时程任务分解与执行机制。数据集采用LeRobot标准格式，支持直接接入现有训练流程，为机器人从演示数据中学习复杂操作技能提供了标准化实验环境。

实际应用

在工业与服务机器人领域，该数据集支撑了智能仓储分拣、家庭服务助手等实际系统的开发。基于其商业空间场景数据训练的模型，可直接应用于零售行业的货架补货机器人；家庭环境数据则助力开发能够处理日常物品整理的家用机器人。数据集提供的数字孪生仿真环境与真实数据配对，形成了高效的仿真到现实迁移管道，显著降低了机器人系统在真实场景中的部署调试成本，为物流、零售、养老等行业的自动化升级提供了关键技术支撑。

衍生相关工作

该数据集催生了多个具身智能领域的创新研究方向。基于其多层次标注特性，研究者开发了分层强化学习框架，实现了长时程任务的自动分解与执行；其丰富的视觉-动作配对数据促进了多模态大语言模型与机器人控制的融合研究，诞生了视觉语言动作模型等新型架构；精细的物体交互标注则推动了以物体为中心的模仿学习方法发展。这些工作共同构成了从数据驱动到知识引导的机器人智能演进路径，为下一代通用机器人系统的开发奠定了方法论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集