five

FoldPlanet-500

收藏
Hugging Face2025-10-27 更新2025-10-28 收录
下载链接:
https://huggingface.co/datasets/stellarnexrobotics/FoldPlanet-500
下载链接
链接失效反馈
官方服务:
资源简介:
FoldPlanet-500是一个高质量、结构化、可学习的真实泛化场景叠衣动作数据集,包含500+小时多样化的叠衣任务实例,覆盖不同衣物、不同折叠阶段。数据集包括多角度、高分辨率视频、视觉问答数据、思维链数据和动作捕捉数据,旨在帮助模型学习人类的行为逻辑、操作方式、物体交互特征以及任务理解能力。
创建时间:
2025-10-14
原始信息汇总

FoldPlanet-500数据集概述

基本信息

  • 数据集名称:FoldPlanet-500折叠星球
  • 数据集类型:衣物折叠In-the-wild Human数据集
  • 版本:1.0
  • 发布机构:上海星际硅途技术有限公司
  • 发布日期:2025-10-24

数据集简介

专为具身智能人形机器人训练设计的高质量、结构化、可学习的真实泛化场景叠衣动作数据集。旨在帮助模型学习人类的行为逻辑、操作方式、物体交互特征以及任务理解能力。

核心价值

  • 真实场景,专业动作:包含常见衣物类型的专业级折叠流程,由专业人员在真实场景执行验证
  • 多模态数据,精准对齐
    • 视觉感知:多角度高分辨率视频图像序列
    • 动作捕捉:全身31节点动作捕捉技术
    • 语义标注:详尽步骤化自然语言指令
  • 规模化与标准化:包含500+小时高质量叠衣任务实例

数据内容

数据类型 内容描述 数据格式
视频数据 多视角高分辨率视频 .mp4
视觉问答(VQA) 任务关键帧的视觉QA数据 .jsonl/.png
思维链(CoT) 任务思考推理数据 .jsonl/.png
动作捕捉(Mocap) 全身关节运动轨迹数据 .bvh

应用场景

  • 具身智能与人形机器人控制策略学习
  • 多模态感知融合(视觉-语言-动作)
  • 操作意图识别与动作模仿学习
  • 自监督行为理解模型训练
  • 人机交互与任务规划研究

数据质量保证

  • 所有数据均经清洗处理
  • 视频与动作捕捉帧对齐误差控制在±10ms内
  • 标注由多名人员完成并交叉验证

联系方式

  • 微信:divinejxy
  • 邮箱:chaoshunj@stellarnexrobotics.com
搜集汇总
数据集介绍
main_image_url
构建方式
在具身智能研究领域,FoldPlanet-500数据集通过系统化采集流程构建而成。专业数据采集人员在真实环境中执行多样化衣物折叠任务,涵盖短袖、衬衫、长裤等常见品类。采用多视角高清视频记录与31节点全身动作捕捉技术同步采集,确保视觉轨迹与运动数据的时空对齐。所有数据经过严格清洗与交叉验证,帧对齐精度控制在±10毫秒内,形成标准化多模态数据流。
特点
该数据集以其多模态融合特性著称,整合了视觉序列、动作轨迹与语义标注三重维度。视频数据呈现多角度高分辨率操作过程,动作捕捉数据提供人体关节运动参数,语义标注则包含步骤化自然语言指令与视觉问答对。覆盖500余小时实操案例,兼具规模化与专业化特质,为具身智能模型提供从感知到执行的完整学习范本。
使用方法
研究者可通过结构化数据目录分模块调用资源,视频流适用于行为理解模型训练,BVH格式动作数据可直接驱动机器人运动控制。VQA与CoT组件支持视觉语言模型微调,其JSONL格式标注便于构建任务推理链。多模态数据通过会话ID实现跨模态关联,支持端到端的模仿学习与任务规划算法验证。
背景与挑战
背景概述
随着具身智能与人形机器人技术的快速发展,对高质量、多模态行为数据的需求日益迫切。FoldPlanet-500数据集由上海星际硅途技术有限公司于2025年10月发布,聚焦于衣物折叠这一复杂日常任务,旨在通过真实场景下的多模态数据采集,推动机器人对人类行为逻辑与物体交互特征的理解。该数据集整合了视觉感知、动作捕捉与语义标注技术,覆盖多种衣物类型与折叠阶段,为具身智能模型的训练与评估提供了标准化资源,显著提升了机器人任务执行能力的泛化性与适应性。
当前挑战
衣物折叠任务涉及高度灵活的空间操作与动态物体形变,对模型的感知精度与动作规划能力构成核心挑战。FoldPlanet-500在构建过程中需克服多模态数据对齐的复杂性,确保视频、动作捕捉与语义标注在时序与空间上的一致性。此外,真实场景的多样性要求数据采集具备环境泛化能力,同时需维持标注质量与规模间的平衡,以支撑模型对折叠意图推理与步骤分解的深层学习。
常用场景
经典使用场景
在具身智能研究领域,FoldPlanet-500数据集作为衣物折叠任务的基准资源,广泛应用于机器人动作模仿与任务规划。其多模态特性支持模型从视频序列中解析人类操作逻辑,结合动作捕捉数据生成机器人可执行的控制指令,典型场景包括通过视觉-语言对齐实现叠衣步骤的时序推理与动作分解。
衍生相关工作
基于该数据集衍生的研究多聚焦于多模态预训练架构创新,例如结合CoT数据的任务推理网络、融合BVH动作序列的仿生控制策略。这些工作进一步拓展至跨任务行为迁移、零样本操作学习等方向,形成了以衣物操作为核心的具身智能技术生态。
数据集最近研究
最新研究方向
在具身智能与人形机器人领域,FoldPlanet-500数据集正推动多模态感知融合的前沿探索。其整合视觉、语言与动作捕捉数据,为模型理解人类操作逻辑提供结构化支持,尤其在衣物折叠任务中模拟真实环境下的动态交互。当前研究聚焦于跨模态对齐技术,通过时序视频与高精度动作轨迹的协同分析,提升机器人对复杂任务的推理能力。热点方向包括自监督行为理解与任务规划优化,利用数据中的思维链和视觉问答标注,构建可泛化的操作策略。这类工作显著加速了家庭服务机器人的实用化进程,为具身智能大模型的迭代奠定基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作