VITRA-TeleData

Name: VITRA-TeleData
Creator: Microsoft
Published: 2026-02-09 18:11:27
License: 暂无描述

Hugging Face2026-02-09 更新2026-02-10 收录

下载链接：

https://huggingface.co/datasets/microsoft/VITRA-TeleData

下载链接

链接失效反馈

官方服务：

资源简介：

VITRA遥操作数据集包含使用配备灵巧手和头戴式RGB摄像头的7自由度机械臂收集的真实世界机器人遥操作演示。每个演示提供同步的数值状态/动作数据和视频记录。该数据集用于微调项目VITRA（可扩展的视觉-语言-动作模型预训练，用于机器人操作与真实人类活动视频）。数据集中的每个演示由两个同步文件组成：一个HDF5文件包含机器人状态、动作、运动学和元数据，另一个MP4文件包含头戴式摄像头记录的RGB视频流。数据集支持单臂和双臂演示，当前发布的版本仅包含右臂数据。数据集的文件结构详细描述了元数据、运动学、观察、状态、动作和掩码的组织方式。此外，数据集还定义了多个坐标系和转换关系，包括arm_base、ee_urdf、hand_mount和head_camera坐标系，并提供了详细的姿态表示和转换矩阵说明。

The VITRA Teleoperation Dataset contains real-world robotic teleoperation demonstrations collected using 7-degree-of-freedom (7-DOF) robotic arms equipped with dexterous hands and head-mounted RGB cameras. Each demonstration provides synchronized numerical state/action data and video recordings. This dataset is used for fine-tuning the project VITRA: Scalable Vision-Language-Action Model Pretraining for Robotic Manipulation and Real Human Activity Videos. Each demonstration in the dataset consists of two synchronized files: one HDF5 file containing robotic states, actions, kinematics, and metadata, and another MP4 file containing the RGB video stream recorded by the head-mounted camera. The dataset supports single-arm and dual-arm demonstrations, while the currently released version only contains data for the right arm. The file structure of the dataset details the organization of metadata, kinematics, observations, states, actions, and masks. Additionally, the dataset defines multiple coordinate systems and transformation relationships, including the arm_base, ee_urdf, hand_mount, and head_camera coordinate systems, and provides detailed descriptions of pose representations and transformation matrices.

提供机构：

Microsoft

创建时间：

2026-02-09

搜集汇总

数据集介绍

构建方式

在具身智能与机器人操作领域，高质量的演示数据是训练先进模型的关键。VITRA-TeleData数据集通过真实的遥操作示范构建而成，其采集系统整合了七自由度机械臂与灵巧手，并配备了头戴式RGB相机。每个演示片段均包含同步记录的高维数值状态与动作数据以及第一视角的视频流，确保了多模态信息在时间维度上的严格对齐。数据以HDF5格式存储，结构清晰地组织了元数据、运动学参数、观测状态、执行动作及可用性掩码，为机器人学习提供了精确且可复现的基准。

特点

该数据集的核心特征在于其多模态与高精度的同步性。它不仅提供了机器人关节状态、末端执行器位姿及目标动作的完整数值轨迹，还同步录制了操作过程中的第一视角视觉观察。数据集严格定义了多个坐标系及其间的变换关系，并强调所有运动学参数（如手部安装偏移、相机外参）均以片段为单位存储，避免了恒定假设带来的误差。这种设计使得数据集能够灵活支持单臂或双臂配置，并通过掩码机制清晰标注数据的可用性，为视觉-语言-动作模型的精细化调优奠定了坚实基础。

使用方法

为有效利用该数据集进行模型训练或算法验证，使用者需首先加载对应的HDF5文件与MP4视频。数据读取应遵循文件内定义的结构，从`/meta/`获取任务指令与基本信息，从`/state/`和`/action/`提取状态与动作序列，并依据`/mask/`处理数据可用性。至关重要的是，所有坐标变换矩阵，包括手部安装变换与相机外参，都必须从当前片段的`/kinematics/`路径中读取，不可跨片段复用。通过结合第一视角视频与精确的位姿数据，研究者可以训练模型学习从复杂视觉观察到精细动作执行的映射关系。

背景与挑战

背景概述

在具身人工智能与机器人灵巧操作领域，高质量、多模态的演示数据是训练通用视觉-语言-动作模型的关键基础。VITRA-TeleData数据集由微软研究团队于2024年创建，旨在为项目VITRA提供真实世界遥操作示范数据，以微调大规模预训练模型。该数据集通过配备灵巧手与头戴相机的七自由度机械臂采集，同步记录了机器人状态、动作与第一视角视频，其核心研究问题聚焦于如何利用真实人类活动视频来规模化地提升机器人对复杂操作任务的理解与执行能力。这一数据资源的发布，为弥合仿真训练与真实物理部署之间的鸿沟提供了重要支撑，推动了机器人学习从特定任务向通用技能泛化的范式转变。

当前挑战

该数据集致力于解决机器人灵巧操作中视觉-语言-动作联合建模的挑战，其核心在于如何从非结构化的第一视角视频与高维连续动作序列中，学习出可泛化、可解释的操控策略。具体挑战包括：在领域层面，模型需处理视觉观察、语言指令与多关节动作之间的复杂对齐与长时序依赖关系，并克服真实环境中的动态干扰与物理不确定性。在构建层面，数据采集面临多传感器（机械臂、灵巧手、RGB相机）的精确时间同步与空间标定难题，且不同演示片段间因硬件配置差异（如相机安装位姿、手部法兰偏移）导致运动学变换非恒定，这要求数据表示必须包含每段演示特有的变换矩阵，增加了数据处理的复杂度与一致性维护的难度。

常用场景

经典使用场景

在具身智能与机器人操作领域，VITRA-TeleData数据集为视觉-语言-动作模型的微调提供了关键支持。其经典使用场景在于通过真实世界的人类遥操作演示，同步记录机械臂与灵巧手的运动状态及头戴相机的视觉信息，从而构建起多模态数据间的精确对应关系。研究人员利用该数据集训练模型从视觉观察中理解任务指令，并生成相应的机器人动作序列，有效推动了从人类演示到机器人自主执行复杂操作任务的学习过程。

实际应用

在实际应用层面，VITRA-TeleData数据集支撑着家庭服务、工业装配等场景中机器人灵巧操作技能的开发。基于该数据集训练的模型，能够使机器人理解如“打开罐子”、“组装零件”等自然语言指令，并模仿人类的操作方式完成任务。这种能力对于开发适应非结构化环境、能处理多样化物体的通用机器人系统至关重要，为未来实现能够与人类自然协作、执行精细任务的机器人助理奠定了数据基础。

衍生相关工作

围绕VITRA-TeleData数据集，已衍生出系列经典研究工作。其直接关联的VITRA项目，探索了如何利用真实人类活动视频进行大规模预训练，再通过本数据集进行机器人领域的微调，实现了知识的高效迁移。该数据集的发布，进一步激励了社区在视觉-语言-动作模型架构设计、多模态对齐策略以及从演示到策略的学习算法等方面的创新，成为连接大规模视频理解与具体机器人控制任务的一个重要研究基准与催化剂。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集