ywxia/fold_new_slam

Name: ywxia/fold_new_slam
Creator: ywxia
Published: 2026-04-10 17:40:57
License: 暂无描述

Hugging Face2026-04-10 更新2026-04-12 收录

下载链接：

https://hf-mirror.com/datasets/ywxia/fold_new_slam

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: apache-2.0 task_categories: - robotics tags: - LeRobot - custom_eef configs: - config_name: default data_files: data/*/*.parquet --- This dataset was created using [LeRobot](https://github.com/huggingface/lerobot). ## Dataset Description ## Data Distribution Overview ![Dataset distribution overview](./overview.png) This figure summarizes the data distribution of the **ywxia/fold_new_slam** dataset, auto-generated after each conversion via `analysis/postprocess_with_overview.py`. It shows episode-length distribution, the 3-D EEF workspace, per-dimension state histograms, per-arm action magnitudes, and a sample of frames from each camera. **Task:** fold the box on the desk **Episodes:** 59 | **Frames:** 21264 | **FPS:** 15 | **Robot:** custom_eef ## Gripper Data Distribution Raw exported action-space gripper channels: | Arm | Action dim | Mean | Std | Min | Max | Median | P99 | Exact zero | | --- | ---: | ---: | ---: | ---: | ---: | ---: | ---: | ---: | | left | 6 | 0.0086 | 0.0210 | 0.0000 | 0.1877 | 0.0000 | 0.1088 | 56.7% | | right | 13 | 0.0138 | 0.0339 | 0.0000 | 0.2682 | 0.0000 | 0.1879 | 50.7% | These numbers are computed from the raw dataset action channels before any ACT delta or rot6d transforms. - **Homepage:** [More Information Needed] - **Paper:** [More Information Needed] - **License:** apache-2.0 ## Dataset Structure [meta/info.json](meta/info.json): ```json { "codebase_version": "v2.1", "robot_type": "custom_eef", "total_episodes": 59, "total_frames": 21264, "total_tasks": 1, "total_videos": 0, "total_chunks": 1, "chunks_size": 1000, "fps": 15, "splits": { "train": "0:59" }, "data_path": "data/chunk-{episode_chunk:03d}/episode_{episode_index:06d}.parquet", "video_path": "videos/chunk-{episode_chunk:03d}/{video_key}/episode_{episode_index:06d}.mp4", "features": { "left_wrist_cam_0": { "dtype": "image", "shape": [ 224, 224, 3 ], "names": [ "height", "width", "channel" ] }, "left_wrist_cam_1": { "dtype": "image", "shape": [ 224, 224, 3 ], "names": [ "height", "width", "channel" ] }, "right_wrist_cam_0": { "dtype": "image", "shape": [ 224, 224, 3 ], "names": [ "height", "width", "channel" ] }, "right_wrist_cam_1": { "dtype": "image", "shape": [ 224, 224, 3 ], "names": [ "height", "width", "channel" ] }, "state": { "dtype": "float32", "shape": [ 7 ], "names": [ "state" ] }, "eef_state": { "dtype": "float32", "shape": [ 14 ], "names": [ "eef_state" ] }, "actions": { "dtype": "float32", "shape": [ 14 ], "names": [ "actions" ] }, "timestamp": { "dtype": "float32", "shape": [ 1 ], "names": null }, "frame_index": { "dtype": "int64", "shape": [ 1 ], "names": null }, "episode_index": { "dtype": "int64", "shape": [ 1 ], "names": null }, "index": { "dtype": "int64", "shape": [ 1 ], "names": null }, "task_index": { "dtype": "int64", "shape": [ 1 ], "names": null } } } ``` ## Citation **BibTeX:** ```bibtex [More Information Needed] ```

提供机构：

ywxia

搜集汇总

数据集介绍

构建方式

在机器人操作领域，fold_new_slam数据集依托LeRobot平台构建，专注于桌面折叠盒子的任务场景。该数据集通过采集59个完整操作序列，累计21264帧数据，以每秒15帧的速率记录机器人末端执行器的状态与动作。数据以Parquet格式存储，每个片段包含多模态信息，如左右腕部摄像头的视觉输入、机器人状态及动作向量，并通过分析脚本自动生成数据分布概览，确保构建过程的系统性与可追溯性。

特点

该数据集的特点体现在其丰富的多模态结构与精细的统计特性上。视觉数据来自四个腕部摄像头，每帧图像分辨率统一为224x224像素的三通道格式，提供了机器人操作时的立体视角。状态与动作数据以浮点向量形式编码，涵盖7维状态、14维末端执行器状态及14维动作空间，并附带时间戳与索引信息。数据分布显示动作通道具有显著的零值比例，反映了操作中的静止阶段，为模仿学习与策略优化提供了高保真的现实世界交互记录。

使用方法

使用fold_new_slam数据集时，研究人员可依据meta/info.json中的结构描述加载数据，所有样本均划分为训练集，支持直接用于机器人模仿学习或强化学习模型的训练。数据以分块形式组织，可通过指定片段索引访问Parquet文件，便捷提取视觉、状态与动作序列。该数据集兼容主流机器人学习框架，用户能够基于末端执行器状态与动作数据重建操作轨迹，或利用视觉输入进行感知-动作联合建模，以推动桌面操作任务的算法研发与性能评估。

背景与挑战

背景概述

在机器人操作领域，模仿学习与视觉运动控制已成为推动智能体执行复杂任务的关键范式。fold_new_slam数据集依托LeRobot平台构建，专注于桌面折叠盒子的具体操作任务，其核心研究问题在于如何整合多视角视觉感知与末端执行器状态数据，以训练机器人完成精细的物体操纵。该数据集通过59个任务片段和超过两万帧的多模态记录，为机器人学习提供了丰富的交互轨迹，尽管其具体创建时间与主要研究人员信息尚未公开，但其在开源机器人数据集生态中，为促进端到端策略学习与场景理解贡献了宝贵资源。

当前挑战

该数据集旨在解决机器人操作中基于视觉的折叠任务所面临的挑战，其核心难点在于处理高维连续动作空间与多摄像头视觉输入的协调，以及从演示数据中泛化到未见场景的鲁棒性。在构建过程中，挑战主要体现在数据采集的复杂性上：需同步记录左右腕部摄像头的图像流、机器人状态与动作序列，并确保数据的时间对齐与空间一致性；同时，动作数据的分布呈现高度稀疏性，如左右臂动作维度中超过50%的零值比例，这为策略学习带来了样本效率与动作表示优化的双重考验。

常用场景

经典使用场景

在机器人操作学习领域，fold_new_slam数据集为研究双臂协作的精细操作任务提供了典型范例。该数据集聚焦于桌面环境下的折叠盒子任务，通过多视角腕部摄像头采集视觉信息，结合末端执行器状态与动作序列，构建了从感知到执行的完整数据流。研究者可借此训练模仿学习或强化学习模型，以探索双臂机器人在复杂物体交互中的协调控制策略，尤其适用于需要高精度空间定位与连续动作规划的场景。

实际应用

在工业自动化与家庭服务机器人场景中，fold_new_slam数据集所对应的折叠操作任务具有直接应用价值。例如，在物流分拣环节，机器人需对纸箱进行折叠整理；在居家环境中，辅助机器人可能需处理衣物或包装物品。该数据集训练的模型可提升机器人在非结构化环境中的适应性，降低对精确预编程的依赖，实现更灵活、自主的物品操作能力，为智能制造与个性化服务提供技术支持。

衍生相关工作

基于此类双臂操作数据集，学术界已衍生出多项经典研究工作。例如，结合视觉语言模型进行任务指令解析的机器人操作框架，利用动作分块技术处理长周期任务的时序模型，以及基于扩散模型生成多样化动作序列的决策方法。这些工作通常以多模态数据融合为核心，探索在少量示教样本下的泛化能力，进一步推动了机器人操作学习在少样本、零样本场景下的算法进展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集