so101_eval3_all
收藏Hugging Face2026-05-16 更新2026-05-16 收录
下载链接:
https://huggingface.co/datasets/HBOrtiz/so101_eval3_all
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是LeRobot v3数据集的一部分,专门用于SO-101 SmolVLA评估任务3,任务涉及机器人拾取空可乐罐并根据参考照片和名称提示将其放置在指定名人的印刷肖像上。数据集包含4,195个片段,其中178个为基础遥操作演示,4,017个为通过修复增强生成的变体。每个场景包含3个肖像,排列在工作空间的半圆中。数据结构包括来自腕部摄像头的RGB图像(480x640,H.264 30 fps)、恒定帧参考照片(480x480,H.264 30 fps)、关节位置状态(6个浮点数)和目标关节位置动作(6个浮点数)。数据组成覆盖192位独特名人,包括75%的默认提示、15%的仅参考提示和10%的反事实提示,共有933个独特任务字符串。数据增强流程使用GroundingDINO进行肖像检测,SAM 2.1进行掩码传播,通过人脸感知角点重排序和Lanczos扭曲替换肖像区域,并应用Reinhard颜色转移和alpha羽化混合以保持光照一致性,最后使用InsightFace ArcFace验证身份。数据来源于LeMonkey项目仓库,用于ETH机器人学习FS26项目1的评估3(SmolVLA路径)。
提供机构:
HBOrtiz
创建时间:
2026-05-16
原始信息汇总
数据集概述:so101_eval3_all
1. 基本信息
- 许可证:Apache-2.0
- 任务类别:机器人技术(robotics)
- 标签:LeRobot, so-101, smolvla, image-as-prompt, vla
- 数据规模:1M 到 10M 条记录
- 配置:默认配置,数据文件为
data/*/*.parquet
2. 任务描述
- SO-101 机器人需从工作区拿起一个空的 330 毫升可乐罐,并将其放置在指定名人照片的打印肖像前。
- 每个场景包含 3 张名人肖像,呈半圆形排列在工作区上。
- 目标名人由参考照片和姓名提示共同指定。
3. 数据模式(Schema)
| 特征 | 形状 | 说明 |
|---|---|---|
observation.images.camera1 |
(480, 640, 3),H.264 30 fps | 腕部摄像头 RGB 图像 |
observation.images.reference |
(480, 480, 3),H.264 30 fps | 目标名人的恒定帧参考照片(用于图像提示) |
observation.state |
(6,) float32 | 关节位置:shoulder_pan, shoulder_lift, elbow_flex, wrist_flex, wrist_roll, gripper |
action |
(6,) float32 | 目标关节位置(与 state 顺序一致) |
4. 数据集构成
- 总集数:4,195 集
- 基础遥操作集:178 集,涵盖 3 位名人(Yann LeCun、Barack Obama、Taylor Swift),6 种布局排列。
- 增强变体:4,017 集,每集基础数据通过 25 次图像修复增强生成,覆盖 192 位独特名人,任务分配均匀:
- 75% 为“默认”提示(如
"Set the coke down on <name>s picture.") - 15% 为“仅参考”提示(如
"Place the can on the celebrity shown in the reference image.") - 10% 为“反事实”提示(名称与可见肖像故意不匹配,模型需依赖参考照片而非名称)
- 75% 为“默认”提示(如
- 唯一任务字符串:共 933 个
5. 数据增强流程
- 使用 GroundingDINO 检测每集第 0 帧中的三张肖像。
- 使用 SAM 2.1 将肖像掩码传播至全部 538 帧。
- 通过 面部感知角点重排 + Lanczos 变换,将每个肖像区域替换为另一位名人的照片(从 192 位名人库中采样,库来源:Wikimedia + Bing)。
- 使用 Reinhard 颜色迁移 + 羽化混合 确保光照一致性。
- 通过 InsightFace ArcFace 验证替换后身份余弦相似度 ≥ 0.4,方可保留该变体。
6. 数据来源
- 项目:ETH Robot Learning FS26 Project 1 (Eval 3, SmolVLA 路径) 的 LeMonkey 项目仓库,增强代码位于
eval_3/aug/目录。
7. 参考图像编码
- 每集对应的参考照片编码为恒定帧的 H.264 mp4 文件,SmolVLA 可将其作为第二个摄像头流与腕部摄像头流一同处理。



