VLA Datasets & Benchmarks

github2026-01-08 更新2026-01-15 收录

下载链接：

https://github.com/ziyaow1010/vla-datasets-benchmarks

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个关于Vision-Language-Action (VLA)研究的数据集和基准测试的精选列表，专注于数据格式、评估协议和基准可比性，并提供了实际指导。

This is a curated list of datasets and benchmarks for Vision-Language-Action (VLA) research, focusing on data formats, evaluation protocols, benchmark comparability, and providing practical guidance.

创建时间：

2026-01-08

原始信息汇总

VLA Datasets & Benchmarks (Vision-Language-Action) 数据集概述

数据集与基准列表简介

本资源库是一个针对视觉-语言-动作（VLA）研究的精选数据集与基准列表。其核心聚焦于数据格式、评估协议和基准可比性，并为不同的研究需求提供选择哪个数据集/基准的实用指导。

维护信息

维护者: Ziyao Wang, Bingying Wang, Hanrong Zhang / UMD CaseLab
范围: 数据集 + 基准 + 评估协议（不深入探讨模型架构）

数据集分类与列表

真实世界机器人数据集

Ego4D: Around the World in 3,000 Hours of Egocentric Video
- 作者: Kristen Grauman, Andrew Westbury, Eugene Byrne 等
- 标签: 真实机器人数据 | 绝对动作 | 末端执行器控制 | 视频 | 多场景
- 链接: 论文 | 网站 | 代码
- 年份/会议: 2022, CVPR
- 备注: 人类自我中心视频数据集（无机器人动作），常用于学习视觉可供性和先验知识。
RT-1: Robotics Transformer for Real-World Control at Scale
- 作者: Anthony Brohan, Noah Brown, Justice Carbajal 等
- 标签: 真实机器人数据 | 增量动作 | 末端执行器控制 | 图像 | 桌面 | 短视距
- 链接: 论文 | 网站 | 代码
- 年份/会议: 2022, arXiv
Benchmarking Vision, Language, & Action Models on Robotic Learning Tasks
- 作者: Pranav Guruprasad, Harshvardhan Sikka, Jaewoo Song, Yangyue Wang, Paul Pu Liang
- 标签: 真实机器人数据 | 混合动作 | 混合控制目标 | 图像 | 多场景
- 链接: 论文 | 网站 | 代码
- 年份/会议: 2023, arXiv
RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
- 作者: Brianna Zitkovich, Tianhe Yu, Sichun Xu 等
- 标签: 混合数据 | 混合动作 | 末端执行器控制 | 图像
- 链接: 论文 | 网站 | 代码
- 年份/会议: 2023, PMLR
BridgeData V2: A Dataset for Robot Learning at Scale
- 作者: Homer Rich Walke, Kevin Black, Tony Z. Zhao, Quan Vuong, Chongyi Zheng, Philippe Hansen-Estruch, Andre Wang He, Vivek Myers, Moo Jin Kim, Max Du, Abraham Lee, Kuan Fang, Chelsea Finn, Sergey Levine
- 标签: 真实机器人数据 | 增量动作 | 末端执行器控制 | 3D | 桌面
- 链接: 论文 | 网站 | 代码
- 年份/会议: 2023, PMLR
RH20T: A Comprehensive Robotic Dataset for Learning Diverse Skills in One-Shot
- 作者: Hao-Shu Fang, Hongjie Fang, Zhenyu Tang, Jirong Liu, Chenxi Wang, Junbo Wang, Haoyi Zhu, Cewu Lu
- 标签: 真实机器人数据 | 绝对动作 | 混合控制目标 | 3D | 多场景
- 链接: 论文 | 网站 | 代码
- 年份/会议: 2023, RSS
DROID: A Large-Scale In-The-Wild Robot Manipulation Dataset
- 作者: Alexander Khazatsky, Karl Pertsch, Suraj Nair 等
- 标签: 真实机器人数据 | 增量动作 | 末端执行器控制 | 图像 | 桌面
- 链接: 论文 | 网站 | 代码
- 年份/会议: 2024, RSS

模拟与合成数据集

MimicGen: A Data Generation System for Scalable Robot Learning using Human Demonstrations
- 作者: Ajay Mandlekar, Soroush Nasiriany, Bowen Wen, Iretiayo Akinola, Yashraj Narang, Linxi Fan, Yuke Zhu, Dieter Fox
- 标签: 合成数据 | 混合动作 | 混合控制目标 | 图像 | 桌面
- 链接: 论文 | 网站 | 代码
- 年份/会议: 2023, CoRL
RoboGen: Towards Unleashing Infinite Data for Automated Robot Learning via Generative Simulation
- 作者: Yufei Wang, Zhou Xian, Feng Chen, Tsun-Hsuan Wang, Yian Wang, Katerina Fragkiadaki, Zackory Erickson, David Held, Chuang Gan
- 标签: 合成数据 | 混合动作 | 混合控制目标 | 图像 | 多场景
- 链接: 论文 | 网站 | 代码
- 年份/会议: 2024, ICML
GraspVLA: a Grasping Foundation Model Pre-trained on Billion-scale Synthetic Action Data
- 作者: Shengliang Deng, Mi Yan, Songlin Wei, Haixin Ma, Yuxin Yang, Jiayi Chen, Zhiqi Zhang, Taoyu Yang, Xuheng Zhang, Wenhao Zhang, Heming Cui, Zhizheng Zhang, He Wang
- 标签: 合成数据 | 绝对动作 | 关节控制 | 3D | 桌面 | 短视距
- 链接: 论文 | 网站 | 代码
- 年份/会议: 2025, arXiv

多模态/触觉/特殊具身数据集

此部分为预留位置，可后续添加触觉数据集、双手操作数据集、移动操作数据集等。

基准分类与列表

桌面 + 简单任务

短视距桌面操作基准，在受控设置下进行。

Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
- 作者: Tianhe Yu, Deirdre Quillen, Zhanpeng He, Ryan Julian, Karol Hausman, Chelsea Finn, Sergey Levine
- 标签: 桌面 | 短视距
- 链接: 论文 | 网站 | 代码
- 年份/会议: 2021, arXiv
LIBERO: Benchmarking Knowledge Transfer for Lifelong Robot Learning
- 作者: Bo Liu, Yifeng Zhu, Chongkai Gao, Yihao Feng, Qiang Liu, Yuke Zhu, Peter Stone
- 标签: 桌面 | 短视距
- 链接: 论文 | 网站 | 代码
- 年份/会议: 2023, NeurIPS
Evaluating Real-World Robot Manipulation Policies in Simulation
- 作者: Xuanlin Li, Kyle Hsu, Jiayuan Gu, Karl Pertsch, Oier Mees, Homer Rich Walke, Chuyuan Fu, Ishikaa Lunawat, Isabel Sieh, Sean Kirmani, Sergey Levine, Jiajun Wu, Chelsea Finn, Hao Su, Quan Vuong, Ted Xiao
- 标签: 桌面 | 短视距
- 链接: 论文 | 网站 | 代码
- 年份/会议: 2024, arXiv

桌面 + 长视距/复杂任务

桌面设置下的长视距指令跟随和组合操作。

CALVIN: A Benchmark for Language-Conditioned Policy Learning for Long-Horizon Robot Manipulation Tasks
- 作者: Oier Mees, Lukas Hermann, Erick Rosete-Beas, Wolfram Burgard
- 标签: 桌面 | 长视距
- 链接: 论文 | 网站 | 代码
- 年份/会议: 2022, arXiv

多场景 + 长视距/复杂任务

多房间/全场景环境中的长视距和组合任务。

BEHAVIOR-1K: A Benchmark for Embodied AI with 1,000 Everyday Activities and Realistic Simulation
- 作者: Chengshu Li, Ruohan Zhang, Josiah Wong, Cem Gokmen, Sanjana Srivastava, Roberto Martín-Martín, Chen Wang, Gabrael Levine, Michael Lingelbach, Jiankai Sun, Mona Anvari, Minjune Hwang, Manasi Sharma, Arman Aydin, Dhruva Bansal, Samuel Hunter, Kyu-Young Kim, Alan Lou, Caleb R Matthews, Ivan Villa-Renteria, Jerry Huayang Tang, Claire Tang, Fei Xia, Silvio Savarese, Hyowon Gweon, Karen Liu, Jiajun Wu, Li Fei-Fei
- 标签: 多场景 | 长视距
- 链接: 论文 | 网站 | 代码
- 年份/会议: 2023, PMLR
VLABench: A Large-Scale Benchmark for Language-Conditioned Robotics Manipulation with Long-Horizon Reasoning Tasks
- 作者: Shiduo Zhang, Zhe Xu, Peiju Liu, Xiaopeng Yu, Yuan Li, Qinghui Gao, Zhaoye Fei, Zhangyue Yin, Zuxuan Wu, Yu-Gang Jiang, Xipeng Qiu
- 标签: 多场景 | 长视距
- 链接: 论文 | 网站 | 代码
- 年份/会议: 2024, arXiv
Open X-Embodiment: Robotic Learning Datasets and RT-X Models
- 作者: Open X-Embodiment Collaboration 等
- 标签: 多场景 | 长视距
- 链接: 论文 | 网站 | 代码
- 年份/会议: 2023, Evaluation Regime

评估协议与指标

影响基准可比性的常见因素：

成功标准: 二元成功 vs 分级进度
重置策略: 脚本重置 vs 人工重置 vs 自主重置
泛化划分: 对象分布外 vs 场景分布外 vs 任务分布外（定义各异）
具身转换: 在不同自由度和动作空间的机器人间进行评估
报告: 种子数量、任务数量、置信区间

搜集汇总

数据集介绍

构建方式

在视觉-语言-动作研究领域，数据集的构建通常遵循系统性原则，以支持机器人学习任务。VLA Datasets & Benchmarks作为一个精选列表，其构建方式基于对现有数据资源的全面梳理与分类。该列表通过整合来自真实机器人操作、仿真环境以及合成数据等多种来源，涵盖了从桌面简单任务到多场景复杂任务的不同维度。每个数据集条目均经过严格筛选，并附带了详细的数据类型、动作表示、控制目标及视觉模态等标签，以确保信息的准确性和可比性。这种结构化的组织方式旨在为研究人员提供一个清晰、可靠的参考框架，便于快速定位适合特定研究需求的数据资源。

特点

该数据集列表的显著特点在于其多维度的分类体系与丰富的元数据标注。通过引入彩色标签系统，数据集被细致地划分为真实机器人数据、合成数据以及混合类型，同时标注了动作表示（如增量动作或绝对动作）、控制目标（如末端执行器控制或关节控制）以及视觉模态（如图像、三维点云或视频）。此外，任务标签进一步区分了桌面任务与多场景任务，以及短时程与长时程任务。这种精细化的分类不仅增强了数据集的透明度和可解释性，还促进了跨数据集之间的比较与集成，为视觉-语言-动作模型的评估与优化提供了坚实基础。

使用方法

使用该数据集列表时，研究人员可依据具体的研究目标灵活选择合适的数据资源。列表的设计旨在回答三个核心问题：现有哪些数据集与基准测试、它们如何被使用以及如何根据研究需求进行选择。例如，对于专注于长时程任务或跨域泛化的研究，用户可参考标签系统快速筛选出包含长时程或多场景任务的数据集。同时，列表提供了每个数据集的论文链接、网站及代码资源，便于进一步获取详细信息。通过这种结构化的指导，研究人员能够高效地利用现有数据资源，推动视觉-语言-动作领域的前沿探索。

背景与挑战

背景概述

在具身人工智能与机器人学习领域，视觉-语言-动作（VLA）模型的研究正成为前沿热点，旨在实现机器人通过自然语言指令理解视觉场景并执行物理动作。VLA Datasets & Benchmarks 项目由马里兰大学CaseLab的Ziyao Wang、Bingying Wang和Hanrong Zhang等人维护，作为一个精心整理的资源列表，其核心研究问题聚焦于为VLA研究提供系统化的数据集、基准测试及评估协议，以促进模型在数据格式、任务设置与性能比较方面的标准化。该项目自2022年起持续更新，汇集了如Ego4D、RT-1、BridgeData V2等关键数据集，以及CALVIN、BEHAVIOR-1K等基准测试，显著推动了机器人长时程任务、跨场景泛化与仿真到现实迁移等方向的发展，为学术界和工业界提供了重要的实验基础与评估框架。

当前挑战

VLA领域面临的核心挑战在于如何让模型在复杂动态环境中实现鲁棒的多模态对齐与动作生成。具体而言，在领域问题层面，模型需克服长时程任务中的组合性推理困难、跨场景与跨物体的分布外泛化能力不足，以及不同机器人本体（如关节控制与末端执行器控制）带来的动作空间异构性。在数据集构建过程中，挑战同样显著：真实机器人数据的采集成本高昂且难以规模化，涉及安全约束与硬件多样性；仿真数据虽可扩展，但存在仿真到现实的领域差距；此外，数据标注需协调视觉、语言与动作模态的一致性，而评估协议缺乏统一标准，如成功准则、重置策略与泛化分割的定义各异，这影响了基准测试之间的公平比较与模型进展的准确衡量。

常用场景

经典使用场景

在具身智能与机器人学习领域，视觉-语言-动作（VLA）数据集与基准测试集合为研究者提供了系统化的评估框架。这些资源最经典的使用场景集中于训练和验证多模态智能体在复杂环境中的任务执行能力，例如在桌面或多场景环境中完成长时程、组合式的操作指令。通过整合真实的机器人操作数据与合成生成的仿真数据，该集合支持从短时程抓取到长时程规划等多种任务类型的模型开发与性能比较，为算法泛化性与鲁棒性研究奠定了数据基础。

解决学术问题

该数据集集合有效应对了机器人学习中的若干核心学术挑战，包括跨模态表征对齐、长时程任务规划以及仿真到现实的迁移问题。通过提供标准化的数据格式与评估协议，它使得不同模型在统一度量下进行公平比较成为可能，从而促进了动作表示学习、语言条件策略优化以及开放词汇操作等研究方向的发展。其意义在于构建了一个可复现、可扩展的评估生态系统，显著降低了领域内研究门槛，并推动了通用机器人智能体的技术进步。

衍生相关工作

围绕该数据集集合，已衍生出一系列具有影响力的经典研究工作。例如，RT-1与RT-2系列利用大规模真实与混合数据，探索了视觉-语言-动作模型的规模化训练与知识迁移；CALVIN基准专注于语言条件的长时程桌面操作任务评估；而Open X-Embodiment则整合了跨多个机器人平台的数据，致力于构建通用的机器人策略模型。这些工作不仅验证了数据集的价值，也进一步拓展了其在多任务学习、终身学习以及基础模型预训练等前沿方向的应用边界。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集