sf_fold_alpha

Hugging Face2025-10-25 更新2025-10-26 收录

下载链接：

https://huggingface.co/datasets/zeroshotdata/sf_fold_alpha

下载链接

链接失效反馈

官方服务：

资源简介：

Zeroshot Tshirt数据集包含真实世界的住宅T恤折叠演示，使用手持抓手在多样化的家庭环境中进行收集。该数据集具有212个独特的环境，4,832个剧集（约101.4小时），以及1296×972 @ 30 fps的视频流。轨迹精度达到绝对姿态误差10 ± 5.1 mm，绝对旋转误差1.5 ± 0.6°。数据格式包括Parquet和MP4。数据收集主要在旧金山的嘈杂和多样化的真实环境中进行，由经过培训的数据收集者按照标准化的程序进行。数据集经过与OptiTrack Trio 3运动捕捉系统的验证，确保了位置和方向跟踪的可靠性和一致性。

创建时间：

2025-10-25

原始信息汇总

Zeroshot Tshirt 数据集概述

数据集基本信息

任务类别: 机器人技术
标签: Zeroshot
许可证: Apache-2.0
数据格式: Parquet文件

数据集内容

核心内容: 真实世界住宅T恤折叠演示数据
收集方法: 使用手持夹爪在多样化家庭环境中收集
数据模态: 包含姿态、夹爪宽度和视频流的多模态数据

数据集规模

环境数量: 212个独特环境，覆盖31个地点
演示片段: 4,832个片段（约101.4小时）
视频流: 1296×972分辨率，30帧/秒

数据精度

绝对姿态误差: 10 ± 5.1毫米
绝对旋转误差: 1.5 ± 0.6度
相对姿态误差: 3 ± 0.5毫米
相对旋转误差: 1.8 ± 0.8度

硬件规格

相机系统

分辨率: 1296×972像素
帧率: 30帧/秒
比特率: 16 Mbps
视场角: 210°
焦距: 2.1 ± 0.2毫米

夹爪编码器

分辨率: 0.000077毫米
精度: ±0.01毫米
重复性: ±0.002毫米
最大宽度: 85 ± 5毫米

数据格式规范

目录结构

元数据: meta/目录下的JSON和JSONL文件
数据文件: data/目录下的Parquet文件
视频文件: videos/目录下的MP4文件
校准文件: calibration/目录下的内外参文件

数据字段

索引和帧信息：index, frame_index, timestamp, episode_index
夹爪数据：gripper_width
姿态数据：left_camera_pose, right_camera_pose等
任务信息：task_index

收集信息

收集地点: 美国加利福尼亚州旧金山
收集人员: 经过培训的付费数据收集员
环境特点: 嘈杂多样的真实世界环境
数据质量: 包含成功和失败案例以增强鲁棒性

预处理与验证

预处理方法: 固定间隔卡尔曼滤波+RTS平滑器，双巴特沃斯滤波
验证系统: 使用OptiTrack Trio 3运动捕捉系统进行交叉验证
数据保留: 原始未过滤记录完整保留

坐标系规范

世界坐标系: 以右夹爪基座为原点
单位: 米、秒、弧度
旋转表示: 四元数（qx, qy, qz, qw），右手系

搜集汇总

数据集介绍

构建方式

在机器人操作领域，该数据集通过专业采集人员在真实居住环境中系统构建。采用手持夹爪装置在31个不同地点的212个多样化环境中执行T恤折叠任务，共收集4832个演示片段，总时长约101.4小时。数据采集遵循标准化协议，保留包括失败案例在内的自然操作变异性，确保数据真实反映实际应用场景的复杂性。所有采集过程均在获得明确知情同意的前提下进行，并经过严格的质量审查流程。

特点

该数据集最显著的特征在于其多模态数据结构和精确的时空同步性。包含三个同步相机视角的视频流（第一人称视角、左右夹爪视角），分辨率达1296×972像素，帧率30fps。轨迹数据具有毫米级精度，绝对位姿误差为10±5.1毫米，旋转误差为1.5±0.6度。数据集采用LeRobot标准格式组织，提供完整的坐标框架转换信息，包括世界坐标系、相机光学中心和末端执行器坐标系之间的精确变换关系。

使用方法

研究人员可通过Hugging Face平台直接访问该数据集，利用Parquet格式存储的轨迹数据和MP4格式的视频流。数据集采用分块存储结构，每个数据块包含完整的多模态观测序列。使用时可结合提供的元数据文件（包括任务描述、片段统计和传感器标定参数），通过标准化的数据加载接口实现高效访问。该数据集特别适用于零样本机器人学习、模仿学习算法验证以及多模态感知控制策略的开发。

背景与挑战

背景概述

Zeroshot Tshirt数据集由ZeroShot Data机构于2024年发布，聚焦于机器人操作领域的衣物折叠任务。该数据集通过手持夹爪在31个真实家庭环境中采集了4,832段T恤折叠演示，总时长约101.4小时，涵盖多样化的光照条件和织物材质。其核心研究目标在于解决机器人精细操作中的泛化能力问题，通过高精度轨迹记录（位姿误差10±5.1毫米）和多模态同步数据，为模仿学习与行为克隆算法提供了关键基准。

当前挑战

该数据集主要应对机器人柔性物体操作的三大挑战：织物形变建模的复杂性要求算法处理非刚性动力学，环境多样性带来的感知干扰需要模型适应光照与背景变化，动作精确度需求则体现在毫米级轨迹控制与多模态数据对齐。构建过程中面临数据采集标准化难题，需在212个异构环境中保持传感器同步，同时克服运动捕捉系统与真实场景的标定偏差，并通过轻量滤波算法平衡轨迹平滑性与细节保留。

常用场景

经典使用场景

在机器人操作学习领域，sf_fold_alpha数据集主要应用于衣物折叠任务的模仿学习研究。该数据集通过4832个真实世界演示片段，记录了专业操作人员在212个不同家庭环境中执行T恤折叠的完整过程。研究人员利用这些多模态数据训练机器人系统学习精细的布料操作技能，包括抓取定位、折叠轨迹规划和末端执行器控制等关键技术环节。数据集提供的同步视频流和精确位姿信息为开发基于视觉的机器人控制算法奠定了坚实基础。

实际应用

在工业与家庭服务机器人领域，该数据集的实际应用价值显著。基于此数据集训练的模型可直接部署于智能洗衣系统，实现衣物的自动化折叠与整理。在医疗护理场景中，相关技术可扩展至床单更换、病号服整理等护理任务。制造业中的柔性材料处理、物流行业的包裹分拣等应用场景也受益于该数据集提供的精细操作示范。这些实际应用显著提升了机器人处理非结构化环境任务的能力。

衍生相关工作

该数据集催生了机器人学习领域的多项经典研究工作。基于其丰富的演示数据，研究者开发了多种基于模仿学习的衣物操作算法，包括分层强化学习框架和端到端的视觉运动策略网络。在跨领域迁移学习方面，衍生出了从仿真到实物的域适应方法。数据集还促进了多模态融合技术的研究，特别是视觉-触觉信息的联合表征学习。这些工作共同推动了机器人操作技术向更复杂、更精细的方向发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集