five

InternData-A1-LeRobot-v3.0-by-embodiment

收藏
Hugging Face2026-03-29 更新2026-03-30 收录
下载链接:
https://huggingface.co/datasets/yixuan-tan/InternData-A1-LeRobot-v3.0-by-embodiment
下载链接
链接失效反馈
官方服务:
资源简介:
InternData-A1是一个面向机器人技术的大型数据集,采用cc-by-nc-sa-4.0许可协议。该数据集专注于具身人工智能和机器人操作领域,包含超过1TB的英文数据。数据集原始来源为InternRobotics/InternData-A1,经过目录结构调整后顶层子目录按四种具身形式组织。部分子集如'basic_tasks/split_aloha/make_a_sandwich_language'存在目录结构不一致问题已修复。特别需要注意的是,'lift2/basic_tasks/fold_towels'子集中包含部分视频加载错误的片段,已通过添加'meta/removed_episodes.json'文件标记这些可跳过的训练片段。
创建时间:
2026-03-28
原始信息汇总

InternData-A1 (LeRobot v3.0; by embodiment) 数据集概述

基本信息

  • 许可证: CC-BY-NC-SA 4.0
  • 任务类别: 机器人学
  • 语言: 英语
  • 标签: 具身人工智能、机器人操作
  • 数据规模: 大于1T
  • 数据集名称: InternData-A1 (LeRobot v3.0; by embodiment)

数据来源与结构

  • 本数据集源自 InternRobotics/InternData-A1
  • 原始压缩包已解压,并对其目录结构进行了“转置”,使得顶层子目录对应四种不同的具身形态。

数据修正

  • 对部分子集(例如 basic_tasks/split_aloha/make_a_sandwich_language)的目录结构进行了调整,使其与其他子集保持一致。这些子集在原始压缩包中存在额外的嵌套目录。

数据问题说明

  • 子集 lift2/basic_tasks/fold_towels 中包含部分无法加载对应视频的片段。
  • 为便于在训练中跳过这些片段,已在该子集目录下添加 meta/removed_episodes.json 文件进行记录。
搜集汇总
数据集介绍
main_image_url
构建方式
在具身智能领域,高质量数据集的构建是推动机器人操作能力发展的关键。InternData-A1-LeRobot-v3.0-by-embodiment数据集源自InternRobotics/InternData-A1,通过解压原始压缩包并重构目录结构,将顶层子目录按照四种不同的机器人具身形态进行组织,实现了数据在形态维度上的系统化排列。针对部分子集如`basic_tasks/split_aloha/make_a_sandwich_language`中存在的目录嵌套不一致问题,进行了结构对齐处理,确保了整体数据组织的一致性。此外,对于`lift2/basic_tasks/fold_towels`子集中因视频加载错误而标记为“脏”的片段,专门添加了`meta/removed_episodes.json`文件予以记录,便于训练过程中进行选择性跳过,从而提升了数据集的整体质量与可用性。
特点
该数据集在机器人操作任务领域展现出鲜明的特色,其核心在于以具身形态作为顶层分类依据,将数据划分为四种不同的机器人实施例,这为研究不同形态机器人的泛化能力与形态特异性提供了结构化基础。数据集规模庞大,标注为“n>1T”,涵盖了丰富的机器人操作场景,尤其专注于具身人工智能与机器人操控任务。通过引入`meta/removed_episodes.json`等元数据文件,数据集增强了对问题数据的透明化管理能力,使得研究人员能够清晰识别并规避数据缺陷,从而保障了后续模型训练与评估的可靠性。这种兼顾规模、结构清晰度与数据质量管理的设计,使其成为支撑复杂机器人技能学习的重要资源。
使用方法
对于希望利用该数据集进行机器人学习研究的使用者而言,首要步骤是理解其按具身形态组织的目录结构,这有助于针对特定机器人平台或跨形态泛化研究进行数据筛选。数据集主要服务于机器人操作任务的训练与评估,用户可依据任务类别(如`basic_tasks`、`lift2`)和具体子集名称加载所需数据。在数据处理流程中,建议检查并参考各子目录下可能存在的`meta/removed_episodes.json`文件,以主动排除标记为无效的数据片段,确保训练数据的纯净度。数据集以英语为主要语言,遵循CC-BY-NC-SA 4.0许可协议,适用于非商业性的学术研究场景,使用者应在合规范围内开展实验与模型开发工作。
背景与挑战
背景概述
在具身人工智能领域,机器人操作任务的数据集构建是推动智能体与环境交互能力发展的关键。InternData-A1-LeRobot-v3.0-by-embodiment数据集由InternRobotics机构创建,其核心研究问题聚焦于通过多具身(embodiment)视角收集和整理机器人操作数据,以支持跨平台、跨任务的机器人学习与泛化。该数据集规模庞大(超过1TB),涵盖多种机器人操作场景,旨在为具身AI研究提供丰富的真实世界交互数据,促进机器人自主操作技能的提升,对机器人学、计算机视觉及强化学习等交叉领域具有重要影响力。
当前挑战
该数据集旨在解决机器人操作任务中的泛化与适应性挑战,例如在不同具身配置下执行复杂操作(如折叠毛巾、制作三明治)时,模型需克服环境多样性、动作序列长程依赖及多模态感知融合等难题。在构建过程中,数据集面临数据对齐与一致性的挑战,部分子集(如basic_tasks/split_aloha/make_a_sandwich_language)存在目录结构嵌套异常,需重新调整以保持整体统一;此外,lift2/basic_tasks/fold_towels子集中包含视频加载错误的脏数据片段,需通过元数据标注进行识别与排除,这增加了数据清洗与质量控制的复杂性。
常用场景
经典使用场景
在具身人工智能领域,InternData-A1-LeRobot-v3.0-by-embodiment数据集作为大规模机器人操作数据的代表,其经典使用场景集中于机器人技能学习与策略泛化研究。该数据集通过整合多种机器人本体(embodiment)的交互数据,为模型提供了跨平台、跨任务的训练基础,使得研究人员能够构建统一的具身智能框架,以应对复杂环境中的物体操纵、任务规划等挑战。
衍生相关工作
围绕InternData-A1数据集,已衍生出一系列经典研究工作,包括跨本体策略迁移框架、多模态机器人学习模型以及任务导向的视觉语言导航系统。这些工作不仅拓展了数据集的利用维度,还催生了新的算法范式,如基于本体感知的强化学习与分布式机器人协作,进一步丰富了具身智能领域的理论体系与应用生态。
数据集最近研究
最新研究方向
在具身智能领域,机器人操作数据集正成为推动自主系统发展的核心资源。InternData-A1-LeRobot-v3.0-by-embodiment数据集以其超过1TB的规模和多模态结构,聚焦于机器人抓取、折叠毛巾等基础任务,为强化学习与模仿学习算法提供了丰富的训练基础。当前研究热点集中于跨具身泛化能力,即如何利用该数据集中的多机器人平台数据,提升模型在不同物理形态下的适应性与鲁棒性。这一方向与近期人形机器人商业化浪潮紧密相连,通过大规模真实世界交互数据,加速了家庭服务与工业自动化场景的落地进程,对降低机器人训练成本、推动AI与物理世界深度融合具有深远意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作