ManiSoft

Hugging Face2026-05-09 更新2026-05-10 收录

下载链接：

https://huggingface.co/datasets/JobsWei/ManiSoft

下载链接

链接失效反馈

官方服务：

资源简介：

ManiSoft是一个用于视觉-语言-动作学习的软体机器人操作数据集和基准测试。该数据集包含四种操作任务的专家演示：收集（COLL）、对齐（ALN）、排列（ARR）和堆叠（STK）。数据集以tar分片的形式组织，便于高效下载和上传。每个案例包含语言指令（instructions.txt）、场景和任务配置（environment.yaml）、专家轨迹（trajectory.pkl）以及可视化资源（visual/）。数据集适用于机器人学、模仿学习、具身AI等研究领域，特别适合用于仿真环境中的软体机器人操作任务。数据集规模在1K到10K之间，提供了训练和评估分片，支持并行提取和灵活下载选项。

ManiSoft is a dataset and benchmark for vision-language-action learning in soft robot manipulation. The dataset contains expert demonstrations for four manipulation tasks: collect (COLL), align (ALN), arrange (ARR), and stack (STK). The dataset is organized in tar shards for efficient download and upload. Each case includes language instructions (instructions.txt), scene and task configurations (environment.yaml), expert trajectories (trajectory.pkl), and visualization resources (visual/). The dataset is suitable for research fields such as robotics, imitation learning, and embodied AI, particularly for soft robot manipulation tasks in simulation environments. The dataset size ranges from 1K to 10K, providing training and evaluation shards with support for parallel extraction and flexible download options.

创建时间：

2026-05-06

原始信息汇总

数据集概述：ManiSoft

ManiSoft 是一个面向软体机器人操作的视觉-语言-动作（VLA）学习数据集与基准测试平台，专注于软体机器人的操控任务与模仿学习。

数据集规模与许可

语言：英语
规模：1,000 至 10,000 个样本
许可协议：MIT
任务类别：机器人学
标签：机器人学、软体机器人、操作、模仿学习、视觉-语言-动作、具身智能、仿真

任务类型

数据集包含四种操作任务的专家演示：

COLL：收集
ALN：对齐
ARR：排列
STK：堆叠

数据集结构

仓库文件组织

assets.tar：仿真所需资源文件
clean/：任务数据，以 .tar 分片形式组织
data_extract.sh：用于递归解压所有数据分片的脚本

分片命名规则

对于 ALN、ARR、COLL：<split>_<object_category>_<start_case_id>_<end_case_id>.tar
对于 STK：<split>_default_<start_case_id>_<end_case_id>.tar

提取后的目录结构示例

clean/ └── ALN/ ├── train/ │ └── bottle/ │ └── 0/ │ ├── environment.yaml │ ├── instructions.txt │ ├── trajectory.pkl │ └── visual/ └── eval/ └── bottle/ └── 0/ ├── environment.yaml ├── instructions.txt ├── trajectory.pkl └── visual/

单个案例文件说明

instructions.txt：语言指令
environment.yaml：场景与任务配置
trajectory.pkl：专家轨迹数据（时间索引字典），用于模仿学习与回放
visual/：可视化资源（如渲染帧或视频）

下载与使用建议

下载数据集

使用 Hugging Face CLI： bash

完整下载

hf download JobsWei/ManiSoft --local-dir ./ManiSoft --repo-type dataset

仅下载数据，不含仿真资源

hf download JobsWei/ManiSoft --local-dir ./ManiSoft --repo-type dataset --exclude "assets.tar"

仅下载评估分片

hf download JobsWei/ManiSoft --local-dir ./ManiSoft --repo-type dataset --include "/eval/"

解压数据分片

使用 data_extract.sh 脚本： bash bash data_extract.sh <tar_root_dir> <max_processes> <delete_tar_file>

tar_root_dir：需递归查找 .tar 文件的根目录
max_processes：并行解压进程数（正整数）
delete_tar_file：解压后是否删除原 .tar 文件（0=保留，1=删除）

典型用法： bash

解压所有分片，保留原文件

bash data_extract.sh ./ManiSoft 8 0

解压并删除原文件

bash data_extract.sh ./ManiSoft 8 1

仅解压 clean 子集

bash data_extract.sh ./ManiSoft/clean 8 1

如需仿真资源，另需执行：

tar -xvf assets.tar

注意事项

解压脚本需在类 Unix Shell 环境中运行（支持 bash、find、tar 及标准作业控制）
不同分片可能解压到相同的 train/ 或 eval/ 目录树，属正常现象
trajectory.pkl 是主要的专家轨迹文件，用于模仿学习和回放

搜集汇总

数据集介绍

构建方式

ManiSoft数据集聚焦于软体机器人操作领域，旨在为视觉-语言-动作学习提供标准化基准。其构建基于模拟环境，针对四项核心操作任务——收集、对齐、排列与堆叠——采集了专家演示数据。数据以分片压缩包形式组织，每个任务下按训练集和评估集划分，进一步依据物体类别与案例编号进行归档。每个操作案例包含语言指令、场景配置、专家轨迹序列及可视化资源，其中轨迹文件以时间戳索引的字典结构存储，便于下游任务解析与回放。

特点

该数据集的核心特色在于其面向软体机器人的领域专精度与多模态学习支持。数据覆盖四种非刚性物体操作场景，案例总数在千至万级之间，兼顾了任务多样性与数据规模的可控性。数据结构设计注重高效分发与复现性，采用分片压缩与并行解压工具，支持按任务、拆分或物体类别灵活筛选。此外，每份案例均配有自然语言描述与场景参数，为多模态模仿学习模型的训练与评估提供了对齐的视觉-语言-动作三元组，显著降低了软体机器人领域的数据获取门槛。

使用方法

数据集的使用遵循高效本地化部署流程。用户可通过Hugging Face CLI按需下载完整数据或排除模拟资产文件，并利用配套的Shell脚本实现分片的并行解压与归档。脚本支持指定并行进程数及解压后是否删除原始压缩包，以平衡存储与处理效率。解压后数据恢复为层级目录结构，研究者可直接访问各案例的指令、配置、轨迹与可视化文件，用于模仿学习模型的训练或基于模拟环境的策略回放。推荐工作流为：先下载数据分片，再执行解压脚本，最后按需整合模拟资产，整体流程简洁且可重复。

背景与挑战

背景概述

ManiSoft是由JobsWei等研究人员于近期发布的软体机器人操作数据集与基准，旨在推动视觉-语言-动作学习在软体机器人领域的发展。该数据集涵盖了收集、对齐、排列和堆叠四种典型操作任务，提供了专家演示轨迹及仿真环境资产，为模仿学习和具身智能研究提供了标准化的评估平台。通过整合语言指令与视觉观察，ManiSoft致力于弥合软体机器人操作与高级语义理解之间的鸿沟，有望推动软体机器人在复杂灵巧操作任务中的实际应用。

当前挑战

该数据集主要面临以下挑战：一是软体机器人本身具有高自由度与非线性形变特性，使得准确建模其动力学行为并生成高质量专家演示轨迹极为困难；二是视觉-语言-动作学习涉及多模态信息的高效融合与对齐，现有方法在处理软体机器人特有的连续形变与柔顺交互时泛化能力不足；三是数据集构建中需保证仿真环境与真实世界的一致性，同时管理大规模shard格式数据的高效下载与解压流程，对资源与工程实现提出了较高要求。

常用场景

经典使用场景

ManiSoft作为软体机器人操控领域的专用数据集与基准，其核心应用场景集中在视觉-语言-动作（VLA）学习范式中。该数据集精心设计了四项经典操控任务——收集、对齐、排列与堆叠，每一任务均通过专家演示轨迹为模仿学习提供高质量示范。研究者常利用ManiSoft训练基于视觉和语言指令的机器人策略，使软体机械手能够理解并执行复杂的环境交互动作，从而在仿真环境中验证算法在精细操控、物体重排及空间推理方面的能力。

衍生相关工作

ManiSoft的发布催生了若干具有代表性的衍生工作。研究者基于该数据集开发了面向软体机器人的多模态策略网络，并结合扩散模型与端到端模仿学习框架，显著提升了长时序操控的鲁棒性。此外，有工作借鉴其任务划分逻辑，拓展了包含更多物体类别与接触模式的新基准。该数据集也成为评估视觉-语言模型与机器人控制接口兼容性的参考平台，推动了跨具身智能实体的知识迁移研究。

数据集最近研究