benchmarks-viz-tiles

Hugging Face2026-04-19 更新2026-04-20 收录

下载链接：

https://huggingface.co/datasets/ckwolfe/benchmarks-viz-tiles

下载链接

链接失效反馈

官方服务：

资源简介：

Dexterous-Hand Benchmarks标准化视频网格数据集(v0.4)包含28个标准化操作视频，采用4种机械手×7种任务的网格形式呈现。所有视频均使用统一相机参数(720×480分辨率，30帧/秒，h264编码，CRF20)和固定视角(pos=[0,-1.6,2.2]，lookat=[0,-0.1,1.2]，fov=30°)渲染生成，确保各视频帧对齐可比。数据集基于Spider预处理的运动学轨迹，通过MuJoCo 3.7.0渲染器批量生成，主要用于灵巧操作算法的基准测试。当前版本包含4种机械手(allegro/inspire/schunk/xhand)在7种日常操作任务(lift_board、pick_spoon_bowl等)上的表现视频。数据集还提供了详细的渲染参数证明和标准化验证，并预留了未来扩展空间(如Arctic数据集整合)。

创建时间：

2026-04-19

原始信息汇总

灵巧手基准测试数据集 — 标准化视频网格 (v0.4)

数据集概述

名称：Dexterous-Hand Benchmarks — standardized video grid
版本：v0.4
许可证：MIT
任务类别：机器人学
标签：灵巧操作、双手、基准测试、maniptrans、dexmachina、spider、arctic、oakink-v2

核心内容

数据集包含一个标准化的4×7视频网格，共28个视频。所有视频均使用相同的摄像机参数、分辨率、编解码器和后端渲染，确保行列之间帧对帧对齐。

标准化证明

分辨率：720 × 480
帧率：30 fps
编解码器：h264 (libx264)
码率控制：crf 20
像素格式：yuv420p
摄像机位姿：pos=[0, -1.6, 2.2], lookat=[0, -0.1, 1.2], fov=30°
渲染器：MuJoCo 3.7.0 (EGL离屏渲染)
数据源：每个单元格均使用Spider预处理的trajectory_kinematic.npz文件
生成脚本：scripts/render_standardized.py（单批次生成，约3分钟）

视频网格结构

网格以手型为行，任务为列。

行（手型）：allegro, inspire, schunk, xhand
列（任务）：lift_board, pick_spoon_bowl, pour_tube, stir_beaker, uncap_alcohol_burner, unplug, wipe_board

每个单元格的视频文件命名格式为：videos_std/std_<手型>_oakink_v2_<任务>_bimanual_seed0_default.mp4

版本更新 (v0.4)

所有28个视频现均使用单一MuJoCo渲染器（scripts/render_standardized.py）生成，数据源为Spider预处理的场景及其运动学推演，消除了因方法不同导致的摄像机漂移问题。各方法原生的视频（Spider的MJWP、DM的Genesis、MT的IsaacGym）仍保留在videos/目录下以供参考。

各方法运行指南

每个方法均有对应的docs/run/<方法名>.md文件，包含具体的命令行指令：

docs/run/maniptrans.md — 评估、模仿器重训练、残差强化学习训练
docs/run/dexmachina.md — 使用140个公开检查点进行评估及可选的重训练
docs/run/spider.md — 5阶段预处理及MJWP批处理
docs/run/ours.md — 运动学回放及标准化视频重新生成

当前未标准化的部分

Arctic数据集单元格（28个） — 需要完整的Spider arctic预处理链。
各方法原生推演视频 — 当前网格显示的是运动学参考轨迹。要渲染各方法（MT/DM/Spider）闭环策略产生的不同推演视频，需要各方法的包装器实现qpos_dump钩子。
Oracle真实数据负载 — 当前网格使用的是Spider衍生的trajectory_kinematic.npz作为参考。

覆盖状态

                    OAKINK-V2 (标准化)   ARCTIC

标准化视频网格 28/28 ✅ 0/28 (待定) DexMachina real add_mean 0 (补丁推迟) 174行 / 19单元格 ✅ ManipTrans real tracking_err 5 / 28 (修复后) 0 (基础设施就绪) Spider real mjwp 24 / 28 0 (补丁部分完成) Oracle real payload 1 / 28 (存根) 0 / 28 (存根)

数据来源

代码仓库：https://github.com/ckwolfe/benchmarks (分支 sweep/rerun-evals-rebuild)
渲染器：scripts/render_standardized.py（已上传至本数据集）

搜集汇总

数据集介绍

构建方式

在灵巧操作研究领域，标准化评估对于公平比较不同算法至关重要。本数据集通过一个统一的渲染流程构建，其核心是利用Spider预处理生成的参考轨迹文件（trajectory_kinematic.npz），在MuJoCo物理引擎中进行运动学回放。所有视频均通过一个专用的Python脚本（render_standardized.py）批量生成，严格锁定了摄像机位姿、分辨率、帧率及编码参数，确保了跨不同灵巧手模型与操作任务之间视觉呈现的绝对一致性，从而消除了因渲染环境差异带来的评估偏差。

特点

该数据集最显著的特征在于其高度的标准化与结构化组织。它将四种不同的灵巧手模型与七项精细操作任务进行组合，形成了一个4x7的标准化视频网格。每个视频单元在技术规格上完全对齐，包括720x480分辨率、30帧率及h264编码，更重要的是共享完全相同的摄像机视角。这种设计使得研究者能够进行逐帧对齐的视觉比较，直观地评估不同机械手在执行相同任务时的运动差异，为算法性能提供了透明、可复现的视觉基准。

使用方法

为支持灵巧操作算法的开发与评估，数据集提供了清晰的使用路径。研究者可依据各方法对应的文档（如docs/run/目录下的Markdown文件）获取具体的命令行指令，以复现评估、模仿学习或强化学习训练流程。数据集的核心标准化视频存放于`videos_std/`目录，用户可直接用于视觉对比分析。此外，通过运行提供的渲染脚本，用户可以自行验证或重新生成标准化视频，确保了研究过程的透明度和可重复性。数据集同时保留了各方法原生的视频输出作为参考，便于进行更深入的溯源分析。

背景与挑战

背景概述

在机器人灵巧操作领域，标准化评估框架的缺失长期制约着不同算法与硬件平台间的公平比较。benchmarks-viz-tiles数据集应运而生，旨在为双手机器人操作任务提供一套统一的视频网格可视化基准。该数据集由研究社区通过公开协作构建，核心聚焦于解决因渲染环境、相机参数不一致所导致的性能评估偏差问题。通过整合Spider、Maniptrans、DexMachina等多种前沿方法的预处理轨迹，并利用MuJoCo渲染器生成严格标准化的视频序列，该数据集为跨方法、跨手型（如Allegro、Inspire、Schunk、XHand）的七项日常操作任务提供了直观、可复现的视觉比较基础，显著提升了领域内评估的透明度与一致性。

当前挑战

该数据集致力于解决灵巧操作算法评估中因视觉呈现不一致而难以进行公平对比的核心挑战。具体而言，其构建过程面临多重技术难题：首要挑战在于统一来自不同仿真后端（如IsaacGym、MJWP）的异构运动数据，并确保所有视频在分辨率、帧率、相机位姿与渲染引擎上完全一致，以消除视觉比较中的干扰因素。其次，数据集扩展面临数据整合的复杂性，例如对Arctic数据集的完整预处理流水线尚未完全贯通，且各方法原生闭环策略输出的运动轨迹捕获与标准化渲染仍需额外的工程适配。此外，当前使用的参考轨迹仍依赖于特定预处理流程，而非原始动作捕捉数据的直接重定向结果，这为评估的最终权威性留下了待完善的空间。

常用场景

经典使用场景

在灵巧操作研究领域，benchmarks-viz-tiles数据集以其标准化的视频网格形式，为多手型与多任务场景下的算法性能评估提供了直观的视觉基准。该数据集通过统一相机参数与渲染流程，将四种灵巧手在七项复杂操作任务中的运动轨迹以视频网格形式呈现，使得研究者能够直接对比不同手型在执行相同任务时的运动差异与性能表现。这种结构化的视觉比较方式，极大便利了算法在跨手型泛化能力、任务适应性以及运动流畅性等方面的定性分析，成为灵巧操作领域进行方法验证与展示的经典工具。

解决学术问题

该数据集有效解决了灵巧操作研究中因评估环境不一致而导致的算法比较困难问题。通过提供完全标准化的视觉输出，它消除了不同方法在渲染设置、相机视角和编码格式上的差异，确保了比较的公平性与可重复性。这为学术界探讨模仿学习、强化学习等算法在复杂灵巧任务上的真实性能提供了可靠依据，推动了关于跨手型知识迁移、任务泛化以及运动规划鲁棒性等核心科学问题的深入探究，对建立统一的灵巧操作评估范式具有奠基性意义。

衍生相关工作

围绕该标准化视频网格，衍生出了一系列专注于灵巧操作算法评估与比较的经典研究工作。例如，基于该数据集框架，Maniptrans、DexMachina和Spider等方法分别发展了各自的评估协议与重训练流程，并贡献了对应的运行文档与模型检查点。这些工作不仅完善了数据集的生态，更推动了闭环策略评估、模仿学习器再训练以及残差强化学习等具体技术方向的进步，形成了以标准化可视化为核心的算法评测与研究社区。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集