FoldPlanet-500

Hugging Face2025-10-27 更新2025-10-28 收录

下载链接：

https://huggingface.co/datasets/stellarnexrobotics/FoldPlanet-500

下载链接

链接失效反馈

官方服务：

资源简介：

FoldPlanet-500是一个高质量、结构化、可学习的真实泛化场景叠衣动作数据集，包含500+小时多样化的叠衣任务实例，覆盖不同衣物、不同折叠阶段。数据集包括多角度、高分辨率视频、视觉问答数据、思维链数据和动作捕捉数据，旨在帮助模型学习人类的行为逻辑、操作方式、物体交互特征以及任务理解能力。

创建时间：

2025-10-14

原始信息汇总

FoldPlanet-500数据集概述

基本信息

数据集名称：FoldPlanet-500折叠星球
数据集类型：衣物折叠In-the-wild Human数据集
版本：1.0
发布机构：上海星际硅途技术有限公司
发布日期：2025-10-24

数据集简介

专为具身智能人形机器人训练设计的高质量、结构化、可学习的真实泛化场景叠衣动作数据集。旨在帮助模型学习人类的行为逻辑、操作方式、物体交互特征以及任务理解能力。

核心价值

真实场景，专业动作：包含常见衣物类型的专业级折叠流程，由专业人员在真实场景执行验证
多模态数据，精准对齐：
- 视觉感知：多角度高分辨率视频图像序列
- 动作捕捉：全身31节点动作捕捉技术
- 语义标注：详尽步骤化自然语言指令
规模化与标准化：包含500+小时高质量叠衣任务实例

数据内容

数据类型	内容描述	数据格式
视频数据	多视角高分辨率视频	.mp4
视觉问答(VQA)	任务关键帧的视觉QA数据	.jsonl/.png
思维链(CoT)	任务思考推理数据	.jsonl/.png
动作捕捉(Mocap)	全身关节运动轨迹数据	.bvh

应用场景

具身智能与人形机器人控制策略学习
多模态感知融合（视觉-语言-动作）
操作意图识别与动作模仿学习
自监督行为理解模型训练
人机交互与任务规划研究

数据质量保证

所有数据均经清洗处理
视频与动作捕捉帧对齐误差控制在±10ms内
标注由多名人员完成并交叉验证

联系方式

微信：divinejxy
邮箱：chaoshunj@stellarnexrobotics.com

搜集汇总

数据集介绍

构建方式

在具身智能研究领域，FoldPlanet-500数据集通过系统化采集流程构建而成。专业数据采集人员在真实环境中执行多样化衣物折叠任务，涵盖短袖、衬衫、长裤等常见品类。采用多视角高清视频记录与31节点全身动作捕捉技术同步采集，确保视觉轨迹与运动数据的时空对齐。所有数据经过严格清洗与交叉验证，帧对齐精度控制在±10毫秒内，形成标准化多模态数据流。

特点

该数据集以其多模态融合特性著称，整合了视觉序列、动作轨迹与语义标注三重维度。视频数据呈现多角度高分辨率操作过程，动作捕捉数据提供人体关节运动参数，语义标注则包含步骤化自然语言指令与视觉问答对。覆盖500余小时实操案例，兼具规模化与专业化特质，为具身智能模型提供从感知到执行的完整学习范本。

使用方法

研究者可通过结构化数据目录分模块调用资源，视频流适用于行为理解模型训练，BVH格式动作数据可直接驱动机器人运动控制。VQA与CoT组件支持视觉语言模型微调，其JSONL格式标注便于构建任务推理链。多模态数据通过会话ID实现跨模态关联，支持端到端的模仿学习与任务规划算法验证。

背景与挑战

背景概述

随着具身智能与人形机器人技术的快速发展，对高质量、多模态行为数据的需求日益迫切。FoldPlanet-500数据集由上海星际硅途技术有限公司于2025年10月发布，聚焦于衣物折叠这一复杂日常任务，旨在通过真实场景下的多模态数据采集，推动机器人对人类行为逻辑与物体交互特征的理解。该数据集整合了视觉感知、动作捕捉与语义标注技术，覆盖多种衣物类型与折叠阶段，为具身智能模型的训练与评估提供了标准化资源，显著提升了机器人任务执行能力的泛化性与适应性。

当前挑战

衣物折叠任务涉及高度灵活的空间操作与动态物体形变，对模型的感知精度与动作规划能力构成核心挑战。FoldPlanet-500在构建过程中需克服多模态数据对齐的复杂性，确保视频、动作捕捉与语义标注在时序与空间上的一致性。此外，真实场景的多样性要求数据采集具备环境泛化能力，同时需维持标注质量与规模间的平衡，以支撑模型对折叠意图推理与步骤分解的深层学习。

常用场景

经典使用场景

在具身智能研究领域，FoldPlanet-500数据集作为衣物折叠任务的基准资源，广泛应用于机器人动作模仿与任务规划。其多模态特性支持模型从视频序列中解析人类操作逻辑，结合动作捕捉数据生成机器人可执行的控制指令，典型场景包括通过视觉-语言对齐实现叠衣步骤的时序推理与动作分解。

衍生相关工作

基于该数据集衍生的研究多聚焦于多模态预训练架构创新，例如结合CoT数据的任务推理网络、融合BVH动作序列的仿生控制策略。这些工作进一步拓展至跨任务行为迁移、零样本操作学习等方向，形成了以衣物操作为核心的具身智能技术生态。

数据集最近研究