TAVIS

github2026-05-07 更新2026-05-08 收录

下载链接：

https://github.com/spiglerg/tavis

下载链接

链接失效反馈

官方服务：

资源简介：

TAVIS是一个用于人类机器人躯干的主动视觉模仿学习和预期注视的基准数据集。它提供了两个机器人（Fourier GR1T2和Pollen Reachy 2）上的八个模拟操作任务，总计2200个VR远程操作的演示数据，预训练的π₀基线，以及一个专有的度量标准——GALT（注视-动作提前时间），用于量化结果策略中的预期注视。

TAVIS is a benchmark dataset for active visual imitation learning and anticipatory gaze for humanoid robot torsos. It features eight simulated manipulation tasks on two robots, the Fourier GR1T2 and Pollen Reachy 2, with a total of 2200 VR teleoperation demonstration datasets, a pre-trained π₀ baseline, and a proprietary metric—GALT (Gaze-Action Lead Time)—for quantifying anticipatory gaze in the resulting policies.

创建时间：

2026-05-04

原始信息汇总

TAVIS 数据集详情

概述

TAVIS (Torso Active Vision Imitation-learning Suite) 是一个用于以自我为中心主动视觉模仿学习和人体躯干预期注视的基准测试平台。它提供了跨两个机器人平台（Fourier GR1T2 和 Pollen Reachy 2）的八个模拟操作任务，总计 2200 次 VR 远程操作演示，预训练的 π₀ 基线模型，以及一个专有度量指标——GALT（Gaze–Action Lead Time，注视-动作超前时间），用于量化学习策略中的预期注视行为。

评估内容

TAVIS 旨在支持以下三个方面的评估声明：

模仿学习中的主动视觉：头戴式自我中心摄像头相对于固定摄像头基线是否能提升任务性能
预期注视：策略能否复现人类演示中“头先于手”的时间结构（通过 GALT 以秒为单位测量）
跨本体的共享任务/动作设计：相同任务在两个人形躯干上运行，采用统一的 19 维动作布局

每个（机器人 × 任务 × 评估模式）单元在 96 个随机回合 上进行评估，成功率附带 Wilson 95% 置信区间报告。

可用资源

资源类型	位置
数据集 (LeRobot v3.0)	https://huggingface.co/tavis-benchmark
预训练 π₀ 检查点	https://huggingface.co/tavis-benchmark
机器人/任务 USD 资产	https://huggingface.co/datasets/tavis-benchmark/tavis-assets
Quest 远程操作 APK	随版本发布

硬件要求

仿真/数据收集/评估：需要支持光线追踪的 NVIDIA GPU（如 RTX 4090、A6000、L40 等）
训练：扩散策略适配单张 24GB 显卡；π₀ 训练需 H100；π₀-LoRA 适配单张 24GB 显卡
远程操作：需开启开发者模式的 Meta Quest 2/3

任务与数据集

任务分类

TAVIS 包含两个子套件：

TAVIS-HEAD：5 个任务
TAVIS-HANDS：3 个任务

可用数据集（多任务套件）

仓库	机器人	套件	回合数
`tavis-benchmark/tavis-head-gr1t2`	GR1T2	TAVIS-HEAD	800
`tavis-benchmark/tavis-head-reachy2`	Reachy2	TAVIS-HEAD	800
`tavis-benchmark/tavis-hands-gr1t2`	GR1T2	TAVIS-HANDS	300
`tavis-benchmark/tavis-hands-reachy2`	Reachy2	TAVIS-HANDS	300

预训练 π₀ 检查点

仓库	机器人	套件	摄像头
`tavis-benchmark/pi0-tavis-head-gr1t2-headcam`	GR1T2	TAVIS-HEAD	头部
`tavis-benchmark/pi0-tavis-head-gr1t2-fixedcam`	GR1T2	TAVIS-HEAD	固定
`tavis-benchmark/pi0-tavis-head-reachy2-headcam`	Reachy2	TAVIS-HEAD	头部
`tavis-benchmark/pi0-tavis-head-reachy2-fixedcam`	Reachy2	TAVIS-HEAD	固定
`tavis-benchmark/pi0-tavis-hands-gr1t2`	GR1T2	TAVIS-HANDS	头部
`tavis-benchmark/pi0-tavis-hands-reachy2`	Reachy2	TAVIS-HANDS	头部

关键特性

GALT 度量

GALT（注视-动作超前时间）是 TAVIS 提出的一个本体感知度量，仅消耗 19 维命令动作轨迹（手臂末端执行器位置 + 头部关节 + 夹爪标量），可移植到任何具有这些通道的机器人上。

评估模式

完整的评估模式分类见 docs/ood_modes.md，包括标准模式（id）和多种分布外（ood_*）模式。

仓库结构

tavis/ ├── tavis/ │ ├── robots/ # GR1T2, Reachy2 实施例 │ ├── tasks/ # 8 个任务定义 │ ├── eval/ # GALT 检测器 + 基准评估核心 │ ├── benchmark/ # 套件定义 │ ├── wrappers/ # CanonicalFrame, InitPose, experiment │ ├── teleop/ # Quest TCP 服务器 + 主循环 │ ├── controllers/ # 零空间逆运动学 │ ├── actions/ # 自定义动作项（如夹爪模仿） │ ├── mdp/ # 观测项 │ ├── make_env.py # 环境构建入口 │ └── download_assets.py # 资产下载器 ├── scripts/ │ ├── teleop_main.py # 运行 VR 远程操作 + 数据集录制 │ ├── train_policy.py # DP/ACT/SmolVLA/π₀ 训练 │ ├── eval_policy.py # 单任务评估（可选 GUI） │ ├── eval_benchmark.py # 正式完整基准评估 │ └── print_benchmark_results.py # 汇总评估 JSON 为 ASCII 表格（Wilson 置信区间） ├── quest_app/ # Meta Quest Unity 项目 ├── docs/ # 按主题分类的文档 ├── pyproject.toml └── LICENSE

许可证

代码：MIT 许可证
数据集：CC-BY-4.0（通过 Hugging Face 上的 tavis-benchmark/ 发布）
机器人模型、YCB 对象和任务资产：遵循各自上游来源的许可证

文档索引

主题	文件
GALT 度量及移植到您自己的机器人	`docs/galt.md`
添加新机器人	`docs/extending_robots.md`
添加新任务	`docs/extending_tasks.md`
评估模式 (id, ood_*)	`docs/ood_modes.md`
数据收集 (VR 远程操作)	`docs/data_collection.md`

搜集汇总

数据集介绍

构建方式

TAVIS是面向人体躯干的自中心主动视觉模仿学习基准套件，涵盖两款仿人机器人（Fourier GR1T2与Pollen Reachy 2）上的八项模拟操作任务。研究团队通过Meta Quest VR遥操作技术采集了总计2200条人类演示数据，并基于IsaacSim与IsaacLab仿真框架构建了统一的19维动作空间。数据集以LeRobot v3.0格式托管于Hugging Face平台，分为TAVIS-HEAD与TAVIS-HANDS两个子集，每个子集按机器人型号独立发布。训练脚本支持基于任务名称的过滤机制，允许从多任务数据集中提取特定任务类别的子集进行单任务学习。

特点

该数据集的独特之处在于同时支持主动视觉与预期性注视的量化评估。其内置的GALT（注视-动作超前时间）指标以秒为单位衡量策略复制人类演示中'头部先于手部'时序结构的能力，而非仅关注空间终点。数据集提供头戴式相机与固定相机两种观测模式，支持对比实验以验证主动视觉对任务性能的增益。所有任务在两种机器人上共享相同的动作布局，但将机器人作为独立的基准轴而非跨体态零样本迁移的场景进行评估，确保了评价的严谨性。每个（机器人×任务×评估模式）单元在96次随机化回合上评估，成功率附带威尔逊95%置信区间。

使用方法

使用TAVIS提供两条实践路径：快速复现与从头训练。快速复现可直接下载Hugging Face上的预训练π₀多任务检查点，通过eval_benchmark.py脚本一键运行完整TAVIS-HEAD测试集（960回合/机器人），结果由print_benchmark_results.py汇总为带置信区间的表格。从头训练可基于单张RTX 4090显卡在约12小时内完成单任务扩散策略的端到端训练，使用train_policy.py脚本配合--task参数过滤数据集。多任务π₀训练需H100级算力，但已发布预训练检查点作为实用复现路径。数据探索可通过LeRobot网页可视化工具流式查看，无需完整下载数据集。

背景与挑战

背景概述

TAVIS（Torso Active Vision Imitation-learning Suite）是由多机构研究人员于近年提出的一个面向类人躯干机器人自我中心主动视觉模仿学习与预期注视行为的综合基准。该数据集由Fourier GR1T2与Pollen Reachy 2两款机器人平台上的八项模拟操作任务构成，包含总计2200条VR遥操作演示数据，并提供了预训练的π₀基线模型。其核心研究问题在于探究自我中心主动视觉在模仿学习中的效用，以及机器人策略能否复现人类演示中“头部先行于手臂”的预期注视时间结构。TAVIS通过引入专有本体感受度量GALT（Gaze–Action Lead Time）来量化策略中的预期注视行为，为机器人模仿学习领域提供了标准化的评估框架，对推动具身智能中视觉-运动协调研究具有重要意义。

当前挑战

TAVIS所解决的领域核心挑战在于，现有模仿学习基准多关注固定视角下的任务完成度，而忽视了主动视觉中头部运动与手部操作的时序协同关系。具体而言，研究人员需要应对以下挑战：1) 如何设计能够有效捕获并量化预期注视行为（即头部先于手部动作的时间差）的评估指标，从而超越单纯的任务成功率评价；2) 在数据构建过程中，如何克服跨机器人平台（不同运动学结构、自由度布局）的任务与动作空间对齐难题，确保同一任务定义在两种类人躯干上具有可比性；3) 需要解决模拟环境的渲染开销与遥操作数据采集的硬件依赖问题，例如依赖支持光线追踪的NVIDIA GPU以及Meta Quest VR设备，这限制了基准的广泛可复现性。

常用场景

经典使用场景

TAVIS（躯干主动视觉模仿学习套件）是一个面向仿人机器人躯干的自我中心主动视觉模仿学习与预期注视基准。它基于NVIDIA IsaacLab仿真平台，集成了Fourier GR1T2和Pollen Reachy 2两款机器人平台，提供了涵盖八项操作任务的2200次VR遥操作示范。其核心设计在于支持对主动视觉在模仿学习中的效用进行系统性评估，特别是在需要头部运动以获取更好视角的复杂操作任务中，研究者可利用该套件对比固定摄像头与头戴式摄像头策略的性能差异。

衍生相关工作

TAVIS的发布催生了一系列重要的衍生研究工作。基于其开放的GALT度量接口，研究者已将该预期注视评估方法迁移至其他机器人平台和操作任务中，形成了一套标准化的评价体系。预训练的多任务π₀检查点被广泛用作基线，推动了扩散策略和视觉语言模型在机器人操作领域的改进与创新。此外，该数据集提供的多任务示范数据和规范化的评估协议，为模仿学习中的跨本体迁移、零样本泛化等前沿探索提供了理想的研究载体，促进了诸如SmolVLA等轻量级视觉语言动作模型在仿真与真实机器人上的性能突破。

数据集最近研究