LARYBench

arXiv2026-04-14 更新2026-04-15 收录

下载链接：

https://github.com/meituan-longcat/LARYBench

下载链接

链接失效反馈

官方服务：

资源简介：

LARYBench是由美团团队构建的大规模多模态基准数据集，旨在评估视觉到动作的潜在表征能力。该数据集包含151个动作类别的120万条视频（总时长超1000小时）、62万张图像对及59.5万条运动轨迹，覆盖人类活动和11种机器人平台的多场景数据。通过自动化数据引擎对原始视频进行精细化分割和标注处理，数据集包含从原子级运动基元到复合行为的多层次语义信息。主要应用于跨智能体的视觉-动作对齐研究，解决机器人控制中缺乏通用性动作表征的难题，为视觉语言动作模型提供标准化评估框架。

提供机构：

美团

创建时间：

2026-04-14

原始信息汇总

LARYBench 数据集概述

数据集简介

LARYBench 是一个用于评估潜在动作表示的统一评估框架。它旨在为任何生成潜在动作表示的模型（LAMs 或视觉编码器）提供三个互补的评估流程。

核心评估流程

get_latent_action：从视频或图像对中提取潜在动作表示。
classification：探究潜在动作捕捉动作语义（动作类型识别）的能力。
regression：探究潜在动作解码物理机器人动作（动作回归）的能力。

数据集规模与构成

总规模：包含超过一百万（1.2M）个视频（约1000小时）、62万（620K）个图像对和59.5万（595K）条运动轨迹。
动作类别：涵盖151个动作类别。
机器人形态：覆盖11种不同的机器人形态。
数据源：包含来自模拟和真实世界环境中，以自我中心和他者视角采集的人类与机器人智能体数据。

支持的数据集

分类数据集（视频模式）

human_1st
robot_1st
libero

回归数据集（图像对模式）

calvin：步长5
vlabench：步长5、15、30
agibotbeta：步长45
robocoin：步长10

数据目录结构

$DATA_DIR/ ├── classification/ # 分类数据集根目录 │ ├── EPIC-KITCHENS/ │ ├── EgoDex/ │ ├── AgiBotWorld-Beta/ │ ├── LIBERO/ │ └── ... └── regression/ # 回归数据集根目录 ├── calvin/ ├── vlabench/ ├── agibot_45/ ├── robocoin_10/ └── ...

关键特性与贡献

首个解耦评估基准：LARYBench 首次将潜在动作表示的评估与下游策略性能解耦，直接、标准化地测量表示质量本身。
双维度评估：沿两个互补维度探测表示——高级语义动作（做什么）编码和机器人控制所需的低级物理动态（如何做）。
自动化数据引擎：开发了自动化数据引擎，用于重新分割和重新标注大规模语料库，以支持严格评估。
核心发现：通过系统评估揭示了两个一致发现：(i) 无需显式动作监督的大规模视觉预训练可以产生与动作相关的特征；(ii) 基于潜在特征的空间通常比基于像素的空间更能与机器人控制对齐。

发布状态

已发布：代码、文本标注和部分验证数据集。
即将发布：训练数据集。

相关资源链接

项目主页：https://meituan-longcat.github.io/LARYBench/
论文（arXiv）：https://arxiv.org/abs/2604.11689
数据集（Hugging Face）：https://huggingface.co/datasets/meituan-longcat/LARYBench
数据集（ModelScope）：https://modelscope.cn/datasets/meituan-longcat/LARYBench
论文（PDF）：https://github.com/meituan-longcat/LARYBench/blob/main/LARYBench.pdf
许可证：MIT License

搜集汇总

数据集介绍

构建方式

在视觉-语言-动作模型面临显式动作数据匮乏的背景下，LARYBench通过自动化数据引擎，对大规模人类视频与机器人演示数据进行系统化重构。该引擎整合了视觉语言模型，对原始视频执行精确的时间分割与语义对齐，从异构数据源中提取出超过120万段短视频、62万图像对及59.5万条运动轨迹。数据集涵盖151个动作类别，跨越人类与机器人两种具身体现，并覆盖从自我中心到外部中心、从模拟环境到真实场景的多样化视角与环境，构建了一个层次化的评估基础，支持从高层语义理解到低层控制映射的全面评测。

使用方法

使用LARYBench时，研究者首先提取待评估模型的潜在动作表示。对于高层语义理解任务，采用基于注意力的探测分类器，对原子级运动基元与任务级复合行为进行分类，以准确率衡量语义可分性。对于低层控制映射任务，则通过简单的多层感知机回归器，将潜在动作解码为连续末端执行器轨迹，以均方误差评估物理动力学建模能力。评估过程需遵循标准化的数据划分与采样策略，并利用运动引导采样器处理视频帧率差异，确保潜在动作能有效封装动态过渡信息，从而实现对模型表征能力的严谨、可比分析。

背景与挑战

背景概述

在具身人工智能领域，视觉-语言-动作模型的发展长期受限于显式动作数据的稀缺。大规模人类动作视频虽提供了可扩展的数据源，但其未标注的特性使得将原始视觉信号转化为独立于本体的潜在动作表示成为关键挑战。为此，美团研究团队于2024年提出了LARYBench基准数据集，旨在系统评估潜在动作表示的质量与有效性。该数据集整合了超过120万段视频、62万图像对及59.5万运动轨迹，覆盖151个动作类别和11种机器人形态，构建了一个统一的评估框架，以探究从视觉观察中推导鲁棒控制的潜力。LARYBench的创立标志着对潜在动作表示进行定量化、标准化评估的重要进展，为视觉到动作的转化研究提供了坚实的实验基础。

当前挑战

LARYBench致力于解决视觉到动作对齐领域中的核心挑战，即如何从大规模未标注视频中学习可泛化的潜在动作表示，以支持高级语义理解与低级机器人控制。具体挑战体现在两方面：其一，在领域问题层面，现有潜在动作模型往往因训练数据有限或过早约束于特定领域而出现表示坍塌，难以在跨智能体、跨场景的任务中保持泛化能力；其二，在构建过程中，数据集的整合面临严峻挑战，包括不同来源视频的时间边界不精确、动作标注不一致，以及需要处理人类与机器人形态差异带来的语义对齐难题。此外，评估框架需设计能够解耦潜在动作质量与下游策略性能的标准化度量，以客观衡量表示的语义可分性与物理动力学建模能力。

常用场景

经典使用场景

在具身智能与视觉-语言-动作模型的研究领域，LARYBench作为首个专门评估潜在动作表示质量的基准，其经典使用场景集中于系统性地衡量模型从视觉观测中提取动作语义与控制信号的能力。该数据集通过精心设计的层次化语义探测协议与物理执行映射评估，为研究者提供了统一的框架，以量化分析不同模型在跨智能体、跨场景下的动作泛化性能与低层控制精度。具体而言，研究者利用其超过120万视频片段、62万图像对及59.5万运动轨迹构成的多样化数据，对潜在动作模型、通用视觉编码器及生成式像素编码器进行横向对比，从而揭示视觉特征与物理动作空间的对齐本质。

解决学术问题

LARYBench的构建旨在解决具身人工智能中一个核心的学术难题：如何客观评估从大规模无标签人类视频中学习到的潜在动作表示的有效性与泛化能力。传统评估方法往往依赖于下游操作任务的性能或定性可视化，难以将潜在动作表示本身的质量与视觉-语言-动作模型的其他组件解耦。该数据集通过将评估维度解耦为高层语义动作分类与低层控制回归，首次实现了对潜在动作表示内在质量的直接、标准化度量。其意义在于揭示了大规模视觉预训练模型无需显式动作监督即可编码动作相关知识，并且基于潜在特征的空间比基于像素的空间更易于与物理动作空间对齐，这为未来VLA系统的设计范式提供了关键的理论依据。

实际应用

在实际应用层面，LARYBench为机器人学习、自动驾驶以及通用具身智能体的开发提供了重要的数据基础与评估工具。其涵盖家庭、工厂、商店、厨房等多种场景，以及11种不同机器人平台和人类演示的数据，能够支持开发者在多样化的真实环境中测试和优化其视觉到动作的转换模型。例如，在服务机器人领域，利用该数据集训练的模型可以更好地理解人类的复杂行为意图，并生成鲁棒的控制指令以完成抓取、放置、倾倒等任务。其自动化数据引擎构建的大规模、高质量标注数据，也为产业界快速迭代和部署基于视觉的智能控制系统降低了数据获取与标注的成本。

数据集最近研究