LARYBench

Hugging Face2026-04-14 更新2026-04-15 收录

下载链接：

https://huggingface.co/datasets/meituan-longcat/LARYBench

下载链接

链接失效反馈

官方服务：

资源简介：

LARY（Latent Action Representation Yielding）是一个用于评估潜在动作表示的统一基准框架。该数据集旨在解决视觉-语言-动作（VLA）模型中显式动作数据不足的问题，通过利用大规模人类视频数据来学习与本体无关的潜在动作表示。数据集包含超过100万段视频（1000小时）、62万张图像对和59.5万条运动轨迹，涵盖151个动作类别和11种机器人实体。LARY支持三个互补的评估维度：1）从视频或图像对中提取潜在动作表示；2）评估潜在动作捕捉高级语义动作（做什么）的能力；3）评估潜在动作解码低级物理机器人动作（如何做）的能力。实验结果表明，未经动作监督训练的通用视觉基础模型在潜在动作表示任务上优于专门的嵌入式LAMs，且潜在特征空间比像素空间更符合物理动作空间。该数据集适用于机器人操作、具身AI和视觉-动作对齐等研究领域。

创建时间：

2026-04-09

原始信息汇总

LARYBench 数据集概述

数据集基本信息

数据集名称: LARY (Latent Action Representation Yielding Benchmark)
托管平台: Hugging Face
许可证: MIT
任务类别: 机器人学、其他
语言: 中文、英文
标签: Embodied-AI, Latent Action, Robotic manipulation
规模: 1M < n < 10M

数据集简介

LARY 是一个用于评估潜在动作表示的统一评估框架。它为任何生成潜在动作表示（LAMs 或视觉编码器）的模型提供了三个互补的评估流程：

get_latent_action: 从视频或图像对中提取潜在动作表示。
classification: 探测潜在动作捕获动作语义（动作类型识别）的能力。
regression: 探测潜在动作解码物理机器人动作（动作回归）的能力。

该数据集旨在解决利用大规模人类视频数据集的关键挑战，即如何将视觉信号转换为与本体无关的表示（即潜在动作），并严格评估其从视觉观察中推导出鲁棒控制的能力。

数据集规模与构成

视频数据: 超过 120 万（1.2M）个视频，总计约 1000 小时，涵盖 151 个动作类别。
图像对数据: 62 万（620K）个图像对。
运动轨迹数据: 59.5 万（595K）条轨迹。
覆盖范围: 涵盖 11 种机器人实体，包括模拟和真实环境中的第一人称（egocentric）和第三人称（exocentric）视角的人类与机器人智能体。

主要特点与贡献

LARYBench 基准: 首次将潜在动作表示的评估与下游策略性能解耦。该基准从两个互补维度探测表示质量：高级语义动作（做什么）编码和机器人控制所需的低级物理动态（如何做）。
大规模数据引擎: 开发了自动化数据引擎，用于重新分割和重新标注大规模语料库，以支持严格评估。
关键发现: 通过系统评估 11 个模型，揭示了两个一致发现：
1. 与动作相关的特征可以在没有显式动作监督的大规模视觉预训练中出现。
2. 基于潜在特征的空间往往比基于像素的空间更能与机器人控制对齐。

支持的数据集

分类数据集（视频模式）

human_1st
robot_1st
libero

回归数据集（图像对模式）

calvin (步长 5)
vlabench (步长 5, 15, 30)
agibotbeta (步长 45)
robocoin (步长 10)

数据目录结构

$DATA_DIR/ ← LARYBench 数据集根目录 ├── classification/ ← 分类数据 │ ├── EPIC-KITCHENS/ │ ├── EgoDex/ │ ├── AgiBotWorld-Beta/ │ ├── LIBERO/ │ └── ... └── regression/ ← 回归数据 ├── calvin/{train_stride5,val_stride5}/ ├── vlabench/ ├── agibot_45/ ├── robocoin_10/ └── vlabench_{15,30}/

发布内容

[x] 代码
[x] 文本标注 (链接：https://github.com/meituan-longcat/LARYBench/tree/main/data)
[x] 验证数据集
[x] 训练数据集

相关资源

项目主页: https://meituan-longcat.github.io/LARYBench
论文: https://github.com/meituan-longcat/LARYBench/blob/main/LARYBench.pdf

搜集汇总

数据集介绍

构建方式

LARYBench数据集通过自动化数据引擎构建，整合了大规模人类视频与机器人操作轨迹。该引擎对原始视频进行重新分割与标注，生成涵盖151个动作类别、11种机器人形态的多样化数据。最终形成包含120万视频片段、62万图像对及59.5万运动轨迹的统一语料库，覆盖模拟与真实环境中的第一人称与第三人称视角。

特点

该数据集具备多维度评估框架，支持对潜在动作表征进行语义理解与物理控制的双重测评。其数据规模庞大且类别丰富，同时提供标准化评估管道，包括潜在动作提取、动作语义分类及机器人动作回归三个核心环节。数据集设计兼顾人类动作视频的语义抽象与机器人轨迹的物理精确性，为视觉-动作对齐研究提供全面基准。

使用方法

使用该数据集需遵循三步评估流程：首先通过统一命令行接口提取视频或图像对的潜在动作表征；随后利用轻量级分类器评估动作语义编码能力；最后通过MLP或扩散解码器预测物理机器人动作序列。整个过程支持多GPU分布式处理，并提供模块化接口以兼容各类视觉编码模型。

背景与挑战

背景概述

在具身智能领域，视觉-语言-动作模型的训练常受限于显式动作数据的稀缺性，而大规模人类行为视频则为学习提供了可扩展但无标签的数据源。LARYBench数据集由美团长期记忆团队于2026年创建，旨在构建一个统一的潜在动作表示评估框架。该数据集的核心研究问题聚焦于如何将视觉信号转化为独立于具体任务本体的潜在动作表示，并系统评估这些表示在高层语义动作识别与底层机器人控制解码两方面的能力。通过整合超过一百万段视频、六十二万图像对及五十九万条运动轨迹，覆盖151种动作类别和11种机器人实体，LARYBench为推进视觉到动作的对齐研究提供了重要基准，显著影响了机器人学习与计算机视觉的交叉领域。

当前挑战

LARYBench致力于解决具身智能中视觉到动作对齐的核心挑战，即如何从无标签的视觉观察中学习能够同时编码动作语义与物理控制信息的通用表示。这一领域问题的难点在于，动作的抽象表示需跨越不同的机器人本体、环境视角以及仿真与真实世界的差异，保持高度的泛化性与鲁棒性。在数据集构建过程中，研究者面临大规模多源数据的整合与重标注挑战，需设计自动化数据引擎对原始视频进行精细分割，并确保图像对与运动轨迹在时间与空间上的一致性。此外，评估框架需支持多种潜在动作模型的统一测试，涉及复杂的特征提取、分类与回归流程，对计算资源与工程实现提出了较高要求。

常用场景

经典使用场景

在具身智能领域，视觉到动作的映射一直是核心挑战。LARYBench作为一个统一的评估框架，其经典使用场景在于系统性地评测潜在动作表示的质量。该框架通过分类和回归两条互补的流水线，分别评估潜在动作对高层语义动作（做什么）和低层机器人控制（如何做）的编码能力。研究人员能够利用其超过一百万视频和数十万轨迹的庞大数据集，对各种视觉编码器或潜在动作模型进行标准化测试，从而深入理解不同模型在动作语义捕获与物理动作解码方面的性能差异。

实际应用

在实际应用层面，LARYBench为机器人学习与智能体控制提供了重要的基准测试工具。其涵盖的多种机器人本体和仿真与现实环境数据，使得它能够直接服务于机器人操作技能的泛化性研究。例如，在家庭服务机器人或工业自动化场景中，系统需要从视觉观察中理解任务意图并生成精确的控制指令。利用该数据集训练的评估框架，能够帮助开发者筛选出在潜在动作空间上与物理动作对齐度更高的视觉模型，从而提升机器人从演示视频中学习技能、适应新任务的能力，加速可靠机器人系统的实际部署。

衍生相关工作

围绕LARYBench数据集，衍生出了一系列探索视觉表示与动作空间对齐的经典研究工作。这些工作主要集中于改进潜在动作模型的架构与训练范式，例如，基于DINOv2、DINOv3等通用视觉基础模型与LAQ（潜在动作量化）头结合的混合模型。此外，该基准也促进了对于像V-JEPA、UniVLA、FLUX.2等不同范式模型在动作理解任务上的系统性比较研究。这些衍生工作共同推动了社区对于“何种视觉表示最有利于具身控制”这一根本问题的认识，并为下一代视觉-动作模型的开发指明了方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集