igor-saprygin/so101-randomized-vla-3cam
收藏Hugging Face2026-04-11 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/igor-saprygin/so101-randomized-vla-3cam
下载链接
链接失效反馈官方服务:
资源简介:
---
license: apache-2.0
task_categories:
- robotics
tags:
- LeRobot
configs:
- config_name: default
data_files: data/*/*.parquet
---
This dataset was created using [LeRobot](https://github.com/huggingface/lerobot).
## Dataset Description
- **Homepage:** [More Information Needed]
- **Paper:** [More Information Needed]
- **License:** apache-2.0
## Dataset Structure
[meta/info.json](meta/info.json):
```json
{
"codebase_version": "v3.0",
"robot_type": "so101",
"total_episodes": 200,
"total_frames": 50000,
"total_tasks": 1,
"chunks_size": 1000,
"data_files_size_in_mb": 100,
"video_files_size_in_mb": 200,
"fps": 50,
"splits": {
"train": "0:200"
},
"data_path": "data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet",
"video_path": "videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4",
"features": {
"observation.images.top": {
"dtype": "video",
"shape": [
3,
480,
640
],
"names": [
"channels",
"height",
"width"
],
"info": {
"video.height": 480,
"video.width": 640,
"video.codec": "av1",
"video.pix_fmt": "yuv420p",
"video.is_depth_map": false,
"video.fps": 50,
"video.channels": 3,
"has_audio": false
}
},
"observation.images.wrist": {
"dtype": "video",
"shape": [
3,
480,
640
],
"names": [
"channels",
"height",
"width"
],
"info": {
"video.height": 480,
"video.width": 640,
"video.codec": "av1",
"video.pix_fmt": "yuv420p",
"video.is_depth_map": false,
"video.fps": 50,
"video.channels": 3,
"has_audio": false
}
},
"observation.images.side": {
"dtype": "video",
"shape": [
3,
480,
640
],
"names": [
"channels",
"height",
"width"
],
"info": {
"video.height": 480,
"video.width": 640,
"video.codec": "av1",
"video.pix_fmt": "yuv420p",
"video.is_depth_map": false,
"video.fps": 50,
"video.channels": 3,
"has_audio": false
}
},
"observation.state": {
"dtype": "float32",
"shape": [
6
]
},
"action": {
"dtype": "float32",
"shape": [
6
]
},
"timestamp": {
"dtype": "float32",
"shape": [
1
],
"names": null
},
"frame_index": {
"dtype": "int64",
"shape": [
1
],
"names": null
},
"episode_index": {
"dtype": "int64",
"shape": [
1
],
"names": null
},
"index": {
"dtype": "int64",
"shape": [
1
],
"names": null
},
"task_index": {
"dtype": "int64",
"shape": [
1
],
"names": null
}
}
}
```
## Citation
**BibTeX:**
```bibtex
[More Information Needed]
```
---
许可证:Apache-2.0
任务类别:
- 机器人学
标签:
- LeRobot
配置项:
- 配置名称:default
数据文件:data/*/*.parquet
---
本数据集由[LeRobot](https://github.com/huggingface/lerobot)开发构建。
## 数据集描述
- **主页**:[暂未提供更多信息]
- **论文**:[暂未提供更多信息]
- **许可证**:Apache-2.0
## 数据集结构
`meta/info.json` 文件内容如下:
json
{
"codebase_version": "v3.0",
"robot_type": "so101",
"total_episodes": 200,
"total_frames": 50000,
"total_tasks": 1,
"chunks_size": 1000,
"data_files_size_in_mb": 100,
"video_files_size_in_mb": 200,
"fps": 50,
"splits": {
"train": "0:200"
},
"data_path": "data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet",
"video_path": "videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4",
"features": {
"observation.images.top": {
"dtype": "video",
"shape": [
3,
480,
640
],
"names": [
"channels",
"height",
"width"
],
"info": {
"video.height": 480,
"video.width": 640,
"video.codec": "av1",
"video.pix_fmt": "yuv420p",
"video.is_depth_map": false,
"video.fps": 50,
"video.channels": 3,
"has_audio": false
}
},
"observation.images.wrist": {
"dtype": "video",
"shape": [
3,
480,
640
],
"names": [
"channels",
"height",
"width"
],
"info": {
"video.height": 480,
"video.width": 640,
"video.codec": "av1",
"video.pix_fmt": "yuv420p",
"video.is_depth_map": false,
"video.fps": 50,
"video.channels": 3,
"has_audio": false
}
},
"observation.images.side": {
"dtype": "video",
"shape": [
3,
480,
640
],
"names": [
"channels",
"height",
"width"
],
"info": {
"video.height": 480,
"video.width": 640,
"video.codec": "av1",
"video.pix_fmt": "yuv420p",
"video.is_depth_map": false,
"video.fps": 50,
"video.channels": 3,
"has_audio": false
}
},
"observation.state": {
"dtype": "float32",
"shape": [
6
]
},
"action": {
"dtype": "float32",
"shape": [
6
]
},
"timestamp": {
"dtype": "float32",
"shape": [
1
],
"names": null
},
"frame_index": {
"dtype": "int64",
"shape": [
1
],
"names": null
},
"episode_index": {
"dtype": "int64",
"shape": [
1
],
"names": null
},
"index": {
"dtype": "int64",
"shape": [
1
],
"names": null
},
"task_index": {
"dtype": "int64",
"shape": [
1
],
"names": null
}
}
}
## 引用
**BibTeX格式**:
bibtex
[暂未提供更多信息]
提供机构:
igor-saprygin
搜集汇总
数据集介绍

构建方式
在机器人学习领域,高质量的数据集对于训练智能体至关重要。so101-randomized-vla-3cam数据集借助LeRobot平台构建,通过采集真实机器人交互数据形成结构化记录。该数据集包含50个完整交互片段,总计7500帧数据,以每秒30帧的速率记录,数据以分块Parquet文件形式存储,每块约1000帧,确保了高效的数据管理与访问。
使用方法
为支持机器人行为克隆与强化学习研究,该数据集已预先划分为训练集。研究者可通过加载Parquet文件直接获取观测图像、状态及动作序列,利用帧索引和片段索引进行时序建模。数据集兼容LeRobot标准接口,便于进行离线策略评估、模型训练与仿真验证,为视觉动作表示学习提供了即用型基准。
背景与挑战
背景概述
在机器人学习领域,视觉语言动作模型的发展正推动着具身智能的进步。so101-randomized-vla-3cam数据集由HuggingFace的LeRobot项目创建,旨在为机器人操作任务提供多视角视觉与动作的时序对齐数据。该数据集聚焦于解决机器人通过视觉感知理解环境并生成精确动作指令的核心研究问题,其结构化设计支持端到端策略学习,对提升机器人在非结构化环境中的自主操作能力具有重要价值。
当前挑战
该数据集致力于应对机器人操作中视觉动作映射的复杂性挑战,包括从多摄像头输入中提取鲁棒特征以指导连续动作生成。在构建过程中,面临数据同步与校准的难题,需确保顶部、腕部和侧面三个视角的视频流与机器人状态、动作指令在时间上精确对齐。此外,大规模高质量机器人数据的采集成本高昂,且需处理高维视觉数据的高效存储与检索问题。
常用场景
经典使用场景
在机器人学习领域,多视角视觉数据对于提升模型的环境感知能力至关重要。so101-randomized-vla-3cam数据集通过提供来自顶部、腕部和侧面三个固定摄像头的同步视频流,以及对应的机器人状态和动作数据,为视觉-语言-动作(VLA)模型的训练与评估提供了标准化基准。该数据集常用于训练端到端的机器人控制策略,使模型能够从丰富的视觉输入中学习复杂的操作任务,例如物体抓取或环境交互,从而推动机器人自主决策能力的发展。
解决学术问题
该数据集主要解决了机器人学中视觉模仿学习与强化学习的数据稀缺性问题。通过提供大规模、多视角的演示数据,研究人员能够探索如何从高维视觉输入中有效提取特征,并映射到连续动作空间。这有助于克服传统方法在模拟到真实迁移中的领域鸿沟,为研究跨模态表示学习、策略泛化以及样本效率提升等核心学术问题提供了实证基础,促进了机器人智能在非结构化环境中的实际应用。
实际应用
在实际机器人部署中,so101-randomized-vla-3cam数据集支持开发适应动态环境的自主系统。例如,在工业自动化场景中,基于该数据训练的模型可应用于装配线零件的抓取与放置,或是在仓储物流中实现货物的视觉引导搬运。其多视角设计增强了系统对遮挡和视角变化的鲁棒性,使得机器人能够在复杂光线和布局条件下稳定执行任务,为智能制造和服务机器人领域的智能化升级提供了关键技术支撑。
数据集最近研究
最新研究方向
在机器人视觉语言动作(VLA)领域,多视角视觉数据正成为推动具身智能发展的关键资源。so101-randomized-vla-3cam数据集通过集成顶部、腕部和侧面三个摄像头的同步视频流,为模型提供了丰富的环境感知信息,这契合了当前机器人学习中对空间理解和场景泛化的迫切需求。前沿研究聚焦于利用此类多模态数据训练端到端的策略网络,旨在提升机器人在非结构化环境中的操作鲁棒性。随着开源机器人平台LeRobot的普及,类似数据集加速了模仿学习与强化学习算法的融合探索,为家庭服务、工业自动化等场景的智能体训练提供了宝贵的实验基础。
以上内容由遇见数据集搜集并总结生成



