mug_grasp_topdown_eval

Hugging Face2026-04-21 更新2026-04-22 收录

下载链接：

https://huggingface.co/datasets/yianW/mug_grasp_topdown_eval

下载链接

链接失效反馈

官方服务：

资源简介：

SmolVLA Top-Down Grasp Evaluation数据集是一个用于评估从顶部抓取并举起杯子任务的数据集。数据集构建时使用了训练轨迹中的精确场景参数，包括物体欧拉角、物体缩放、基座高度和xy偏移等。每个案例最多包含5种不同的配置，均匀采样自z旋转范围。数据集包含11个不同杯子和旋转角度的案例，每个案例有5次试验（部分案例为2次）。整体成功率为25.0%，不同案例的成功率从0%到100%不等。每个试验文件夹包含第三人称视频文件（20 fps）和结果JSON文件，后者记录了场景参数、成功标志、z轴变化和步数等信息。数据集还提供了一个汇总所有结果的JSON文件。

创建时间：

2026-04-17

原始信息汇总

SmolVLA Top-Down Grasp Evaluation 数据集概述

数据集基本信息

数据集名称：SmolVLA Top-Down Grasp Evaluation
创建目的：用于评估模型 yianW/smolvla_mug_grasp_topdown
许可协议：MIT

评估构建方法

每个评估片段使用来自成功训练轨迹的精确场景参数（object_euler、object_scale、pedestal_height、xy_offset）。
训练轨迹来源文件：rerot_jitter_results.json、jitter_from_successes_results.json 和 jitter_round2_results.json。
每个（杯子，基础旋转）案例最多选取5个不同的配置，并在z旋转范围内均匀采样。
每个评估片段使用独立的子进程，以确保Genesis形态与每个片段特定的欧拉角正确结合。

总体评估结果

总体成功率：13/52 = 25.0%
成功标准：在150步内将物体提升超过3厘米（z > 3 cm）。

各案例详细结果

案例	成功率
`cup_rot000`	2/5 (40%)
`cup_rot180`	5/5 (100%)
`mug_2_tripo_rot180`	2/5 (40%)
`mug_5_tripo_rot090`	1/5 (20%)
`mug_7_tripo_rot180`	2/5 (40%)
`mug_9_tripo_rot000`	0/5 (0%)
`mug_9_tripo_rot270`	0/5 (0%)
`mug_dowan_rot090`	0/5 (0%)
`paper_coffee_cup_rot090`	1/5 (20%)
`paper_coffee_cup_rot270`	0/2 (0%)
`paper_cup_20_oz_rot270`	0/5 (0%)

数据集文件结构

每个试验对应一个文件夹，命名格式为 <case>_e<ep_idx>/。
每个文件夹包含：
- episode.mp4：第三人称视角视频，帧率为20 fps。
- result.json：包含场景参数、成功标志、z轴位移量和步数。
根目录包含汇总文件 all_results.json，为所有结果的拼接列表。

任务描述

任务：从顶部抓取杯子并抬起（Grasp mug from top and lift）。

搜集汇总

数据集介绍

构建方式

在机器人抓取领域，评估模型的泛化能力至关重要。本数据集构建时，严格复现了训练阶段成功的轨迹场景参数，包括物体的欧拉角、尺度、基座高度及平面偏移。从多个训练结果文件中，为每个（马克杯，基础旋转）组合均匀采样多达五种不同的配置，确保在Z轴旋转范围内具有代表性。每个评估片段均通过独立的子进程生成，从而将Genesis形态与每段特定的欧拉角精确结合，避免了先前评估中因旋转叠加而产生的方向偏差，实现了场景参数的高度一致性。

特点

该数据集专注于从顶部抓取并提升马克杯的任务评估，其核心特点在于场景参数的精确复现与多样性配置的平衡。数据集中涵盖了多种马克杯模型及旋转案例，如标准杯、三角柄马克杯及纸质咖啡杯等，每种案例均包含多个评估片段，并提供了详细的每案例成功率统计。每个试验文件夹不仅包含第三人称视角的视频记录，还附有场景参数、成功标志、高度变化及步数等结构化数据，便于深入分析模型在不同几何与姿态条件下的抓取表现。

使用方法

研究人员可利用本数据集对顶部抓取模型进行系统化评估与比较。数据集以每试验文件夹的形式组织，用户可直接加载`result.json`文件获取场景参数与结果指标，或通过`all_results.json`快速汇总所有试验数据。通过分析不同案例的成功率差异，如`cup_rot180`案例达到100%成功率而部分案例表现欠佳，能够揭示模型在特定物体形状与朝向下的薄弱环节。视频文件则为定性分析抓取过程提供了直观依据，支持从行为到性能的多维度模型诊断。

背景与挑战

背景概述

在机器人操作领域，灵巧抓取是推动自主系统发展的核心研究问题之一。mug_grasp_topdown_eval数据集由研究人员yianW及其团队创建，旨在评估基于视觉语言动作模型在特定抓取任务上的性能。该数据集聚焦于从顶部抓取并提升马克杯的任务，通过精确复现训练轨迹中的场景参数，如物体欧拉角、缩放比例及底座偏移，构建了系统化的评估环境。其设计反映了当前机器人学习研究中对仿真到现实迁移及任务泛化能力的高度关注，为模型在复杂操作场景中的鲁棒性提供了量化基准。

当前挑战

该数据集所针对的领域挑战在于机器人对多样化几何形状物体的稳定抓取，尤其是在不同旋转姿态下的适应性。从构建过程看，挑战主要体现在确保评估场景与训练参数的一致性，早期方法因场景重用导致物体世界朝向偏差，需通过独立子进程烘焙形态旋转以精确控制姿态。此外，数据集中不同马克杯模型及旋转配置的成功率差异显著，部分案例成功率低至零，揭示了模型在特定物体姿态上的泛化局限，凸显了抓取策略对物体几何与位姿敏感性的根本难题。

常用场景

经典使用场景

在机器人抓取研究领域，mug_grasp_topdown_eval数据集为评估视觉语言模型在复杂抓取任务中的性能提供了标准化基准。该数据集通过精确复现训练场景参数，如物体欧拉角、缩放比例和偏移量，构建了多样化的抓取配置，从而系统测试模型在模拟环境中执行顶部抓取并提升杯具的能力。其经典使用场景聚焦于验证模型在动态物理交互中的泛化性和鲁棒性，为算法优化提供量化依据。

衍生相关工作

围绕该数据集衍生的经典工作主要包括对smolvla_mug_grasp_topdown模型的迭代优化研究。研究者利用其评估结果分析失败案例（如特定旋转角度下的低成功率），进而改进模型的视觉感知或运动规划模块。此外，该数据集启发了抓取任务中场景参数编码方法的相关探索，以及多模态融合策略在动态抓取中的应用，推动了机器人学习领域向更精细的物理交互建模方向发展。

数据集最近研究