LARYBench
收藏github2026-05-09 更新2026-04-15 收录
下载链接:
https://github.com/meituan-longcat/LARYBench
下载链接
链接失效反馈官方服务:
资源简介:
LARYBench是一个用于评估潜在动作表示的基准数据集,提供三种互补的评估流程:提取潜在动作表示、动作语义分类和物理机器人动作回归。
LARYBench is a comprehensive dataset that contains over one million videos (totaling 1,000 hours) covering 151 action categories, along with 620K image pairs and 595K motion trajectories, spanning diverse implementations and environments.
创建时间:
2026-04-09
原始信息汇总
LARYBench 数据集概述
数据集基本信息
- 数据集名称:LARY (Latent Action Representation Yielding Benchmark)
- 核心功能:一个用于评估潜在动作表示的统一框架。
- 主要任务:提供三个互补的评估流程,用于评估从视频或图像对中提取的潜在动作表示的质量。
数据集内容与规模
- 视频数据:超过一百万条视频(总计1000小时),涵盖151个动作类别。
- 图像对数据:62万对图像。
- 运动轨迹数据:59.5万条轨迹。
- 覆盖范围:涵盖多种具身智能体(11种机器人形态)和环境(模拟与真实世界),包括自我中心和他者视角的人类与机器人数据。
评估流程
get_latent_action- 任务:从视频或图像对中提取潜在动作表示。
classification- 任务:探究潜在动作捕捉动作语义(动作类型识别)的能力。
regression- 任务:探究潜在动作解码物理机器人动作(动作回归)的能力。
支持的数据集
分类数据集(视频模式)
| 数据集键名 | 用途 |
|---|---|
human_1st |
动作分类 |
robot_1st |
动作分类 |
libero |
动作分类 |
回归数据集(图像对模式)
| 数据集键名 | 用途 | 默认步长 |
|---|---|---|
calvin |
动作回归 | 5 |
vlabench |
动作回归 | 5 |
vlabench_15 |
动作回归 | 15 |
vlabench_30 |
动作回归 | 30 |
agibotbeta |
动作回归 | 45 |
robocoin |
动作回归 | 10 |
数据目录结构
$DATA_DIR/ ← LARYBench 数据集根目录 ├── classification/ ← 分类数据集 │ ├── EPIC-KITCHENS/ │ ├── EgoDex/ │ ├── AgiBotWorld-Beta/ │ ├── LIBERO/ │ └── ... └── regression/ ← 回归数据集 ├── calvin/{train_stride5,val_stride5}/ ├── vlabench/ ├── agibot_45/ ├── robocoin_10/ └── vlabench_{15,30}/
发布状态
- 已发布:代码、文本注释、部分验证数据集。
- 即将发布:训练数据集。
相关资源链接
- 项目主页:https://meituan-longcat.github.io/LARYBench/
- 论文(arXiv):https://arxiv.org/abs/2604.11689
- Hugging Face 数据集:https://huggingface.co/datasets/meituan-longcat/LARYBench
- ModelScope 数据集:https://modelscope.cn/datasets/meituan-longcat/LARYBench
- 论文PDF:https://github.com/meituan-longcat/LARYBench/blob/main/LARYBench.pdf
- 开源协议:MIT License
搜集汇总
数据集介绍

构建方式
在视觉-语言-动作模型领域,大规模人类动作视频为学习动作表示提供了丰富但无标注的数据源。LARYBench数据集通过自动化数据引擎,对超过一百万段视频进行重新分割与标注,构建了一个包含151个动作类别、涵盖人类与机器人视角的综合性数据集。该数据集整合了来自多个公开数据源的视频、图像对及运动轨迹,并采用统一的数据格式进行组织,确保了评估过程的一致性与可复现性。
特点
LARYBench数据集的核心特点在于其评估框架的双重维度设计,能够同时测评潜在动作表示在高层语义动作识别与低层机器人动作回归两方面的能力。数据集规模庞大,覆盖了模拟与真实环境下的多种机器人本体,提供了从自我中心与外部中心视角采集的数据。其结构化的数据布局与预构建的元数据文件,为不同模型的统一评估与对比提供了便利,支持对视觉基础模型与专用动作模型进行系统性的性能剖析。
使用方法
使用LARYBench数据集进行评估,需遵循其三步标准化流程。首先,通过提取模块将视频或图像对编码为潜在动作表示。随后,分类任务利用这些表示训练轻量级分类器,以评估其语义动作的捕获能力;回归任务则训练解码器来预测物理机器人动作序列,以测评其与底层控制的对应关系。数据集提供了统一的命令行接口与配置文件,支持用户便捷地集成新模型,并在多种数据集分割与评估模式下进行测试。
背景与挑战
背景概述
在视觉-语言-动作(VLA)模型的发展进程中,大规模显性动作数据的匮乏构成了显著瓶颈,而海量无标注的人类动作视频则为模型训练提供了可扩展的数据源。LARYBench(Latent Action Representation Yielding Benchmark)由美团长期猫团队于2026年4月提出,旨在构建一个统一的评估框架,专门用于评测潜在动作表示的质量。该数据集的核心研究问题聚焦于如何将视觉观察转化为与本体无关的潜在动作表示,并系统评估这些表示在高层语义动作识别与低层机器人控制解码两方面的能力。通过整合超过一百万段视频、六十二万对图像及五十九万条运动轨迹,覆盖151个动作类别和11种机器人实体,LARYBench为视觉到动作的对齐研究提供了标准化、大规模的评测基准,对推动具身智能与通用机器人学习领域的发展具有重要影响力。
当前挑战
LARYBench致力于解决视觉到动作对齐领域的关键挑战:如何从无标注的视觉数据中学习出既包含高层语义信息又能精确解码为物理控制信号的通用动作表示。具体挑战包括:第一,在语义层面,模型需从多样化的视频中提取出与动作类别相关的抽象特征,并克服不同场景、视角和动作执行者带来的巨大差异;第二,在控制层面,潜在表示必须能够准确回归到连续、高维的机器人动作空间,这对表示的平滑性、一致性和物理可解释性提出了极高要求。在数据集构建过程中,研究团队面临大规模多源数据的重新分割与标注、跨模态数据(视频、图像对、轨迹)的时空对齐、以及在不同机器人本体与环境间保持评估一致性的工程挑战。
常用场景
经典使用场景
在视觉-语言-动作(VLA)模型的研究领域,LARYBench数据集被广泛用于评估潜在动作表示的质量。该数据集通过分类和回归两条互补的评估管道,系统地检验模型在高层语义动作识别与低层机器人动作回归任务中的表现。研究人员通常利用其超过一百万视频、六十二万图像对和五十九万轨迹的丰富数据,对各类视觉编码器或潜在动作模型进行标准化测试,从而揭示模型在视觉到动作对齐方面的泛化能力。
解决学术问题
LARYBench解决了视觉-动作对齐研究中缺乏统一评估框架的核心问题。传统方法往往依赖下游策略性能间接评估表示质量,而该数据集首次将潜在动作表示的评价与具体策略解耦,直接衡量表示本身在语义理解与物理控制两个维度的有效性。其意义在于为学术界提供了可复现的基准,推动了从像素空间到潜在空间的动作表示研究,并揭示了大规模视觉预训练模型在无动作监督下仍能编码动作相关知识的重要发现。
衍生相关工作
围绕LARYBench数据集,学术界衍生了一系列经典研究工作。这些工作主要集中于改进潜在动作表示的学习方法,例如结合DINOv2、SigLIP2等通用视觉基础模型与专用动作编码器,以提升跨域泛化性能。同时,许多研究借鉴其评估框架,开发了新的多模态对齐模型,并在CALVIN、LIBERO等机器人数据集上验证了表示迁移的有效性。这些衍生工作共同推动了视觉-动作表示学习向更高效、更泛化的方向发展。
以上内容由遇见数据集搜集并总结生成



