so101_eval3_all
收藏Hugging Face2026-05-16 更新2026-05-17 收录
下载链接:
https://huggingface.co/datasets/HBOrtiz/so101_eval3_all
下载链接
链接失效反馈官方服务:
资源简介:
so101_eval3_all(又名SO-101 SmolVLA Eval 3)是LeRobot v3系列中的一个机器人学习数据集,专为ETH Robot Learning FS26项目的第一次评估(Eval 3)而创建。该数据集的核心任务是评估视觉语言动作模型(SmolVLA)在‘图像作为提示’场景下的性能,具体任务定义为:一个名为SO-101的机器人机械臂需要拾取一个空的330毫升可乐罐,并将其放置到工作区上呈半圆形排列的三张名人肖像中的一张上,目标肖像由一张参考照片和一个名称文本提示共同指定。数据集包含4,195个完整的操作序列(episodes),其中基于178个基础遥操作演示(涉及三种独立同分布名人:Yann LeCun、Barack Obama、Taylor Swift和六种布局排列),通过复杂的数据增强流程生成了25个增强变体,共计4,017个变体,覆盖了192位独特的名人,并确保了目标分配的平衡与均匀。数据模式(Schema)包含多模态观测和动作:观测部分包括来自手腕相机的RGB视频流(分辨率480x640,30 fps,H.264编码),以及作为恒定帧视频流(分辨率480x480)提供的目标名人参考照片(实现‘图像作为提示’);同时包含一个6维浮点向量表示机器人的关节位置状态。动作部分是一个6维浮点向量表示目标关节位置。数据集的提示(prompt)经过精心设计,包含三种类型:75%为‘默认’提示(明确提及名人姓名),15%为‘仅参考’提示(仅指示参考图像),10%为‘反事实’提示(文本提示中的姓名与可见肖像故意不匹配),用于引导模型学习遵循参考照片而非文本名称。整个数据集共包含933个独特的任务指令字符串。数据增强流程综合运用了多种先进计算机视觉模型和技术:使用GroundingDINO检测肖像,SAM 2.1进行掩码跨帧传播,结合面部感知的角点重排和Lanczos扭曲技术将原始肖像区域替换为来自Wikimedia和Bing爬取的192位名人照片库中的图像,并通过Reinhard颜色迁移和Alpha羽化混合保持场景光照一致性,最后使用InsightFace ArcFace进行身份验证(余弦相似度≥0.4)以确保增强质量。
so101_eval3_all (also known as SO-101 SmolVLA Eval 3) is a robot learning dataset in the LeRobot v3 series, created specifically for the first evaluation (Eval 3) of the ETH Robot Learning FS26 project. The core task of this dataset is to evaluate the performance of the Vision-Language-Action model (SmolVLA) in the image-as-prompt scenario. The specific task is defined as: a robot arm named SO-101 needs to pick up an empty 330 ml soda can and place it on one of three celebrity portraits arranged in a semicircle on the workspace, with the target portrait specified jointly by a reference photo and a name text prompt. The dataset contains 4,195 complete operation sequences (episodes). It includes 178 base teleoperation demonstrations based on three independent and identically distributed celebrities (Yann LeCun, Barack Obama, Taylor Swift) and six layout arrangements. Through a complex data augmentation pipeline, 25 inpainted augmented variants are generated for each base demonstration, totaling 4,017 variants, covering 192 unique celebrities, ensuring balanced and uniform target distribution. The data schema includes multimodal observations and actions: the observation part includes an RGB video stream from the wrist camera (resolution 480x640, 30 fps, H.264 encoding), and a target celebrity reference photo provided as a constant-frame video stream (resolution 480x480) (implementing image-as-prompt); it also includes a 6-dimensional floating-point vector representing the robots joint position state. The action part is a 6-dimensional floating-point vector representing the target joint position. The datasets prompts are carefully designed, including three types: 75% are default prompts (explicitly mentioning the celebritys name), 15% are reference-only prompts (only indicating the reference image), and 10% are counterfactual prompts (where the name in the text prompt deliberately does not match the visible portrait), used to guide the model to learn to follow the reference photo rather than the text name. The entire dataset contains 933 unique task instruction strings. The data augmentation pipeline integrates various advanced computer vision models and techniques: using GroundingDINO to detect portraits, SAM 2.1 for mask cross-frame propagation, combined with face-aware corner rearrangement and Lanczos warping to replace the original portrait areas with images from a library of 192 celebrity photos scraped from Wikimedia and Bing, and maintaining scene lighting consistency through Reinhard color transfer and alpha feather blending, finally using InsightFace ArcFace for identity verification (cosine similarity ≥ 0.4) to ensure enhancement quality.
创建时间:
2026-05-16
原始信息汇总
数据集概述:so101_eval3_all
基本信息
- 数据集名称:so101_eval3_all
- 许可证:Apache-2.0
- 任务类别:机器人技术(Robotics)
- 数据规模:1M < n < 10M
- 数据格式:Parquet 文件
任务描述
机器人手臂(SO-101)需要抓取一个空的330毫升可乐罐,并将其放置在指定知名人物的印刷肖像上。每个场景中包含3张呈半圆形排列的肖像,目标人物通过参考照片和姓名提示共同指定。
数据集组成
数据规模
- 总片段数:4,195 个
- 基础遥操作片段:178 个(涉及3位标准知名人物,6种布局排列)
- 增强变体:4,017 个(每个基础片段×25种重绘变体)
覆盖范围
- 独特知名人物:192 位
- 独特任务字符串:933 个
提示类型分布
- 默认提示(75%):例如
"把可乐放在<姓名>的照片上" - 仅参考提示(15%):例如
"将罐子放在参考图像中所示的名人照片上" - 反事实提示(10%):提示中的姓名与可见肖像故意不匹配,学习逻辑应遵循参考照片而非姓名
数据结构
| 特征 | 形状 | 说明 |
|---|---|---|
observation.images.camera1 |
(480, 640, 3), H.264 30 fps | 腕部摄像头RGB图像 |
observation.images.reference |
(480, 480, 3), H.264 30 fps | 固定帧的目标名人参考照片(图像提示) |
observation.state |
(6,) float32 | 关节位置:shoulder_pan, shoulder_lift, elbow_flex, wrist_flex, wrist_roll, gripper |
action |
(6,) float32 | 目标关节位置(与state相同约定) |
数据增强流程
- GroundingDINO 检测每个基础片段第0帧中的三张肖像
- SAM 2.1 在所有538帧中传播肖像掩码
- 人脸感知角点重排+Lanczos扭曲 将每个肖像区域替换为不同名人的照片(从192位名人库中采样)
- Reinhard颜色转移+羽化混合 保持与场景的光照一致性
- InsightFace ArcFace 验证替换后的人脸身份余弦相似度≥0.4
参考照片编码
每个片段的参考照片编码为恒定帧的H.264 mp4文件,使模型能够将其作为第二摄像头流与腕部摄像头图像一起处理。
搜集汇总
数据集介绍

构建方式
该数据集为SO-101机器人操作任务中Eval 3评估环节的专用数据集,旨在训练机械臂依照名人肖像照片完成放罐任务。数据构建始于178段基础遥操作演示,涵盖三位已知名人及六种空间布局。在此基础上,通过自动化图像修复流水线生成4,017段增强变体。流水线首先借助GroundingDINO检测每段基础视频首帧中的三幅肖像,利用SAM 2.1将肖像掩膜传播至全部538帧,随后通过人脸感知角点重排与Lanczos翘曲将每个肖像区域替换为从192位名人库中采样的他人照片。替换后的图像经Reinhard色彩迁移与羽化融合以保持光照一致性,最终通过InsightFace ArcFace验证替换身份的余弦相似度不低于0.4方可保留。每段增强变体同时配备三种提示类型:默认提示、仅参考图提示,以及名称与可见肖像故意不一致的反事实提示,用于训练模型遵循参考图像而非文本指令。
特点
该数据集具有鲜明的多模态对抗性与规模化增强特点。总计4,195段片段中,基础演示仅占178段,其余均为自动化生成的高质量变体,覆盖192位独特名人,任务字符串多达933种。参考照片以恒定帧H.264视频形式编码,作为“图像即提示”的第二摄像头流与腕部相机RGB图像并列输入,使模型能够同时感知操作场景与目标肖像。9类名人肖像配合6种布局排列,加之精心设计的提示类型分布——75%默认提示、15%仅参考图提示、10%名称与画面人物错配的反事实提示——共同构成了对视觉-语言-动作联合推理能力的多维度考验。这种设计不仅评估机器人执行物理任务的精度,更检验其在视觉与语言线索矛盾时是否能够正确信任视觉证据。
使用方法
使用该数据集时,可直接利用LeRobot框架加载Parquet格式的示范数据。每条片段包含腕部相机RGB图像、恒定帧参考名人肖像、六维关节状态及对应动作目标。数据集已在HuggingFace上发布,可通过指定配置名'so101_eval3_all'进行引用。在训练视觉-语言-动作模型时,推荐将参考图像作为额外的视觉条件输入与指令文本或任务标记共同编码。由于反事实提示的存在,模型需学会在指令与视觉信息冲突时以参考图像为最终依据,这一特性可在训练中引入辅助对比损失或注意力掩码以强化图像引导能力。对于评估场景,可直接从4,195段片段中按需拆分为训练与验证集,利用其丰富的名人身份与提示变体检验模型的泛化鲁棒性。
背景与挑战
背景概述
SO-101 SmolVLA Eval 3数据集由ETH Zurich机器人学习实验室于2025年创建,隶属于FS26项目1的Eval 3评估阶段。该数据集聚焦于视觉-语言-动作(VLA)模型在机器人操作任务中的泛化能力,核心研究问题在于如何使机器人通过参考图像与语言指令的联合引导,在复杂场景中执行精确的物体抓取与放置。数据集包含4,195条示范轨迹,涵盖178条基础遥操作演示与4,017条通过图像修复技术生成的增强变体,横跨192位名人的图像,显著拓展了多模态机器人学习的数据多样性。该数据集为SmolVLA路径的关键评估环节,推动了将视觉与语言先验注入机器人行为决策的研究前沿,对具身智能领域的多模态融合与域外泛化研究具有重要借鉴价值。
当前挑战
数据集面临的核心领域挑战在于解决机器人VLA模型在开放场景中的细粒度对象定位与执行鲁棒性:机器人需同时解析参考图像中的语义目标、语言指令中的潜在歧义(如名字与肖像不匹配的反事实情况)以及多目标空间布局的干扰。构建过程中,挑战体现为数据增广管线的技术实现——利用GroundingDINO检测肖像边界、SAM 2.1在538帧间传播遮罩、结合InsightFace ArcFace确保身份一致性(余弦相似度≥0.4),以及通过Reinhard颜色迁移与羽化融合维持场景光照协调。此外,系统需在25次修复迭代中平衡图像质量与计算开销,并生成933个独特的任务指令字符串,以覆盖默认、仅参考与反事实提示的分布,确保训练数据具有充分的覆盖性与对抗性噪声。(200 chars)
常用场景
经典使用场景
so101_eval3_all数据集专为机器人视觉-语言-动作(VLA)联合学习任务设计,其核心使用场景是训练机器人基于视觉提示和语言指令完成精准的物体搬运操作。具体而言,机器人需从工作台上拾取一个空可乐罐,并将其放置在一张印有特定名人照片的肖像上,场景中包含三张呈半圆形排列的肖像。数据集中每一条轨迹均包含腕部相机实时观测图像、恒定帧参考名人照片、六维关节状态以及对应的目标动作,为端到端模仿学习提供了丰富的多模态训练样本。
实际应用
在实际应用中,so101_eval3_all数据集所训练出的模型可直接部署于服务机器人、家庭助手或工业协作场景,例如在餐厅中根据顾客提供的参考照片或口头姓名,将特定物品放置于对应人物肖像前方。其核心价值在于赋予机器人对多模态语义(图像+文字)的灵活理解能力,即使在提示存在冲突或歧义时仍能正确执行任务。该数据集的增强管道设计也展示了如何通过低成本方式大规模扩充机器人操作数据,为实际系统的快速迭代和场景迁移提供了可行方案。
衍生相关工作
围绕so101_eval3_all数据集衍生了一系列重要工作,最具有代表性的是ETH Robot Learning课题组在FS26项目第一期中开发的SmolVLA路径方法,该方法采用Interleave-VLA架构将参考照片作为第二路视觉流送入模型,实现了对图像提示与文本提示的动态融合。此外,数据集的增强流水线本身构成了可复用的技术框架,启发了后续研究将GroundingDINO、SAM和Inpainting等视觉基础模型组合应用于机器人任务场景的自动化数据生成。基于该数据集的基准测试也为评估VLA模型中视觉提示与语言提示的注意力权重分配、以及反事实推理能力提供了标准化评测平台。
以上内容由遇见数据集搜集并总结生成



