ywxia/fold_old_gt
收藏Hugging Face2026-04-10 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/ywxia/fold_old_gt
下载链接
链接失效反馈官方服务:
资源简介:
---
license: apache-2.0
task_categories:
- robotics
tags:
- LeRobot
- custom_eef
configs:
- config_name: default
data_files: data/*/*.parquet
---
This dataset was created using [LeRobot](https://github.com/huggingface/lerobot).
## Dataset Description
## Data Distribution Overview

This figure summarizes the data distribution of the **ywxia/fold_old_gt** dataset, auto-generated after each conversion via `analysis/postprocess_with_overview.py`. It shows episode-length distribution, the 3-D EEF workspace, per-dimension state histograms, per-arm action magnitudes, and a sample of frames from each camera.
**Task:** fold the box on the desk
**Episodes:** 274 | **Frames:** 36231 | **FPS:** 15 | **Robot:** custom_eef
## Gripper Data Distribution
Raw exported action-space gripper channels:
| Arm | Action dim | Mean | Std | Min | Max | Median | P99 | Exact zero |
| --- | ---: | ---: | ---: | ---: | ---: | ---: | ---: | ---: |
| left | 6 | 1.0000 | 0.0000 | 1.0000 | 1.0000 | 1.0000 | 1.0000 | 0.0% |
| right | 13 | 1.0000 | 0.0000 | 1.0000 | 1.0000 | 1.0000 | 1.0000 | 0.0% |
These numbers are computed from the raw dataset action channels before any ACT delta or rot6d transforms.
- **Homepage:** [More Information Needed]
- **Paper:** [More Information Needed]
- **License:** apache-2.0
## Dataset Structure
[meta/info.json](meta/info.json):
```json
{
"codebase_version": "v2.1",
"robot_type": "custom_eef",
"total_episodes": 274,
"total_frames": 36231,
"total_tasks": 1,
"total_videos": 0,
"total_chunks": 1,
"chunks_size": 1000,
"fps": 15,
"splits": {
"train": "0:274"
},
"data_path": "data/chunk-{episode_chunk:03d}/episode_{episode_index:06d}.parquet",
"video_path": "videos/chunk-{episode_chunk:03d}/{video_key}/episode_{episode_index:06d}.mp4",
"features": {
"left_wrist_cam_0": {
"dtype": "image",
"shape": [
224,
224,
3
],
"names": [
"height",
"width",
"channel"
]
},
"left_wrist_cam_1": {
"dtype": "image",
"shape": [
224,
224,
3
],
"names": [
"height",
"width",
"channel"
]
},
"right_wrist_cam_0": {
"dtype": "image",
"shape": [
224,
224,
3
],
"names": [
"height",
"width",
"channel"
]
},
"right_wrist_cam_1": {
"dtype": "image",
"shape": [
224,
224,
3
],
"names": [
"height",
"width",
"channel"
]
},
"state": {
"dtype": "float32",
"shape": [
7
],
"names": [
"state"
]
},
"eef_state": {
"dtype": "float32",
"shape": [
14
],
"names": [
"eef_state"
]
},
"actions": {
"dtype": "float32",
"shape": [
14
],
"names": [
"actions"
]
},
"timestamp": {
"dtype": "float32",
"shape": [
1
],
"names": null
},
"frame_index": {
"dtype": "int64",
"shape": [
1
],
"names": null
},
"episode_index": {
"dtype": "int64",
"shape": [
1
],
"names": null
},
"index": {
"dtype": "int64",
"shape": [
1
],
"names": null
},
"task_index": {
"dtype": "int64",
"shape": [
1
],
"names": null
}
}
}
```
## Citation
**BibTeX:**
```bibtex
[More Information Needed]
```
提供机构:
ywxia
搜集汇总
数据集介绍

构建方式
在机器人操作领域,fold_old_gt数据集通过LeRobot平台构建,专注于桌面折叠盒子的任务。该数据集采集了274个完整操作序列,共计36231帧数据,以15帧每秒的速率记录。数据以Parquet格式存储,每个序列包含多视角视觉信息与机器人状态,通过自定义末端执行器(custom_eef)捕获动作轨迹,并利用分析脚本自动生成数据分布概览,确保结构的一致性与可追溯性。
特点
该数据集的特点在于其多模态数据的集成,提供了左右手腕摄像头的四路图像流,每帧图像分辨率为224x224像素,并同步记录7维状态向量、14维末端执行器状态及动作向量。数据分布经过严格统计,动作通道的均值与标准差均保持稳定,且零值比例极低,体现了高精度的控制信号。此外,数据集包含时间戳与索引信息,支持序列化分析,为模仿学习与强化学习算法提供了丰富的时空上下文。
使用方法
使用fold_old_gt数据集时,研究人员可通过HuggingFace平台直接加载Parquet文件,利用meta/info.json中的元数据解析数据结构。数据集已预分为训练集,涵盖全部274个序列,适用于机器人策略训练与评估。典型应用包括视觉运动控制模型的训练,通过整合图像输入与状态动作对,模拟真实折叠任务;同时,时间戳与帧索引支持时序建模,便于分析动作连续性。数据遵循Apache 2.0许可,确保开源使用的合规性。
背景与挑战
背景概述
在机器人操作学习领域,模仿学习与强化学习等方法依赖于高质量、大规模的真实世界交互数据。fold_old_gt数据集应运而生,专注于桌面环境下的折叠纸盒任务,由LeRobot开源框架支持构建。该数据集收录了274个完整交互序列,共计超过36000帧的多模态观测数据,涵盖双腕摄像头视觉信息、末端执行器状态及精确动作指令。其核心研究问题在于如何通过真实机器人演示数据,推动机器人对复杂灵巧操作任务的理解与泛化能力,为机器人学习社区提供了宝贵的实际交互基准。
当前挑战
fold_old_gt数据集所针对的机器人折叠操作任务,本身涉及高维连续动作空间、精确的时序协调以及对视觉与状态信息的深度融合理解,这些构成了算法层面的核心挑战。在数据构建过程中,采集大规模真实机器人演示需克服硬件控制稳定性、任务完成一致性以及多传感器数据同步对齐等工程难题。此外,数据分布的不平衡性、动作空间的冗余表征以及跨场景泛化能力的缺失,进一步增加了利用该数据集进行有效模型训练的复杂性。
常用场景
经典使用场景
在机器人操作领域,fold_old_gt数据集以其丰富的多视角视觉与状态动作序列,为模仿学习与强化学习算法提供了关键训练资源。该数据集聚焦于桌面环境下的折叠任务,通过记录机器人末端执行器的精确轨迹与多摄像头视觉反馈,典型应用于训练模型从视觉输入中推断动作策略,实现自主折叠操作。其结构化数据格式便于算法直接加载与处理,成为机器人技能学习研究中验证模型泛化能力的基准场景。
解决学术问题
该数据集有效应对了机器人操作中视觉-动作映射的复杂性问题,为研究高维状态空间下的策略学习提供了实证基础。通过提供真实世界中的折叠任务数据,它助力解决模仿学习中的分布偏移问题,并支持探索多模态感知下的动作生成机制。在学术层面,该数据集促进了机器人领域从仿真到实物的迁移学习研究,为理解动态环境中的长期任务规划提供了数据支撑,推动了具身智能算法的实际进展。
衍生相关工作
围绕fold_old_gt数据集,衍生出多项机器人学习领域的经典研究工作。例如,基于其多视角视觉序列,研究者开发了端到端的视觉运动策略网络,实现了从像素到动作的直接映射。同时,该数据集常被用于评估动作分块模型与时空注意力机制在长程任务中的效能。这些工作不仅深化了对机器人操作中状态表示的理解,还催生了新一代模仿学习框架,为后续大规模机器人数据集的构建与算法优化奠定了方法论基础。
以上内容由遇见数据集搜集并总结生成



