VLA Datasets & Benchmarks
收藏VLA Datasets & Benchmarks (Vision-Language-Action) 数据集概述
数据集与基准列表简介
本资源库是一个针对视觉-语言-动作(VLA)研究的精选数据集与基准列表。其核心聚焦于数据格式、评估协议和基准可比性,并为不同的研究需求提供选择哪个数据集/基准的实用指导。
维护信息
- 维护者: Ziyao Wang, Bingying Wang, Hanrong Zhang / UMD CaseLab
- 范围: 数据集 + 基准 + 评估协议(不深入探讨模型架构)
数据集分类与列表
真实世界机器人数据集
-
Ego4D: Around the World in 3,000 Hours of Egocentric Video
- 作者: Kristen Grauman, Andrew Westbury, Eugene Byrne 等
- 标签: 真实机器人数据 | 绝对动作 | 末端执行器控制 | 视频 | 多场景
- 链接: 论文 | 网站 | 代码
- 年份/会议: 2022, CVPR
- 备注: 人类自我中心视频数据集(无机器人动作),常用于学习视觉可供性和先验知识。
-
RT-1: Robotics Transformer for Real-World Control at Scale
- 作者: Anthony Brohan, Noah Brown, Justice Carbajal 等
- 标签: 真实机器人数据 | 增量动作 | 末端执行器控制 | 图像 | 桌面 | 短视距
- 链接: 论文 | 网站 | 代码
- 年份/会议: 2022, arXiv
-
Benchmarking Vision, Language, & Action Models on Robotic Learning Tasks
- 作者: Pranav Guruprasad, Harshvardhan Sikka, Jaewoo Song, Yangyue Wang, Paul Pu Liang
- 标签: 真实机器人数据 | 混合动作 | 混合控制目标 | 图像 | 多场景
- 链接: 论文 | 网站 | 代码
- 年份/会议: 2023, arXiv
-
RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
-
BridgeData V2: A Dataset for Robot Learning at Scale
- 作者: Homer Rich Walke, Kevin Black, Tony Z. Zhao, Quan Vuong, Chongyi Zheng, Philippe Hansen-Estruch, Andre Wang He, Vivek Myers, Moo Jin Kim, Max Du, Abraham Lee, Kuan Fang, Chelsea Finn, Sergey Levine
- 标签: 真实机器人数据 | 增量动作 | 末端执行器控制 | 3D | 桌面
- 链接: 论文 | 网站 | 代码
- 年份/会议: 2023, PMLR
-
RH20T: A Comprehensive Robotic Dataset for Learning Diverse Skills in One-Shot
- 作者: Hao-Shu Fang, Hongjie Fang, Zhenyu Tang, Jirong Liu, Chenxi Wang, Junbo Wang, Haoyi Zhu, Cewu Lu
- 标签: 真实机器人数据 | 绝对动作 | 混合控制目标 | 3D | 多场景
- 链接: 论文 | 网站 | 代码
- 年份/会议: 2023, RSS
-
DROID: A Large-Scale In-The-Wild Robot Manipulation Dataset
- 作者: Alexander Khazatsky, Karl Pertsch, Suraj Nair 等
- 标签: 真实机器人数据 | 增量动作 | 末端执行器控制 | 图像 | 桌面
- 链接: 论文 | 网站 | 代码
- 年份/会议: 2024, RSS
模拟与合成数据集
-
MimicGen: A Data Generation System for Scalable Robot Learning using Human Demonstrations
- 作者: Ajay Mandlekar, Soroush Nasiriany, Bowen Wen, Iretiayo Akinola, Yashraj Narang, Linxi Fan, Yuke Zhu, Dieter Fox
- 标签: 合成数据 | 混合动作 | 混合控制目标 | 图像 | 桌面
- 链接: 论文 | 网站 | 代码
- 年份/会议: 2023, CoRL
-
RoboGen: Towards Unleashing Infinite Data for Automated Robot Learning via Generative Simulation
- 作者: Yufei Wang, Zhou Xian, Feng Chen, Tsun-Hsuan Wang, Yian Wang, Katerina Fragkiadaki, Zackory Erickson, David Held, Chuang Gan
- 标签: 合成数据 | 混合动作 | 混合控制目标 | 图像 | 多场景
- 链接: 论文 | 网站 | 代码
- 年份/会议: 2024, ICML
-
GraspVLA: a Grasping Foundation Model Pre-trained on Billion-scale Synthetic Action Data
- 作者: Shengliang Deng, Mi Yan, Songlin Wei, Haixin Ma, Yuxin Yang, Jiayi Chen, Zhiqi Zhang, Taoyu Yang, Xuheng Zhang, Wenhao Zhang, Heming Cui, Zhizheng Zhang, He Wang
- 标签: 合成数据 | 绝对动作 | 关节控制 | 3D | 桌面 | 短视距
- 链接: 论文 | 网站 | 代码
- 年份/会议: 2025, arXiv
多模态/触觉/特殊具身数据集
- 此部分为预留位置,可后续添加触觉数据集、双手操作数据集、移动操作数据集等。
基准分类与列表
桌面 + 简单任务
短视距桌面操作基准,在受控设置下进行。
-
Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
- 作者: Tianhe Yu, Deirdre Quillen, Zhanpeng He, Ryan Julian, Karol Hausman, Chelsea Finn, Sergey Levine
- 标签: 桌面 | 短视距
- 链接: 论文 | 网站 | 代码
- 年份/会议: 2021, arXiv
-
LIBERO: Benchmarking Knowledge Transfer for Lifelong Robot Learning
- 作者: Bo Liu, Yifeng Zhu, Chongkai Gao, Yihao Feng, Qiang Liu, Yuke Zhu, Peter Stone
- 标签: 桌面 | 短视距
- 链接: 论文 | 网站 | 代码
- 年份/会议: 2023, NeurIPS
-
Evaluating Real-World Robot Manipulation Policies in Simulation
- 作者: Xuanlin Li, Kyle Hsu, Jiayuan Gu, Karl Pertsch, Oier Mees, Homer Rich Walke, Chuyuan Fu, Ishikaa Lunawat, Isabel Sieh, Sean Kirmani, Sergey Levine, Jiajun Wu, Chelsea Finn, Hao Su, Quan Vuong, Ted Xiao
- 标签: 桌面 | 短视距
- 链接: 论文 | 网站 | 代码
- 年份/会议: 2024, arXiv
桌面 + 长视距/复杂任务
桌面设置下的长视距指令跟随和组合操作。
- CALVIN: A Benchmark for Language-Conditioned Policy Learning for Long-Horizon Robot Manipulation Tasks
- 作者: Oier Mees, Lukas Hermann, Erick Rosete-Beas, Wolfram Burgard
- 标签: 桌面 | 长视距
- 链接: 论文 | 网站 | 代码
- 年份/会议: 2022, arXiv
多场景 + 长视距/复杂任务
多房间/全场景环境中的长视距和组合任务。
-
BEHAVIOR-1K: A Benchmark for Embodied AI with 1,000 Everyday Activities and Realistic Simulation
- 作者: Chengshu Li, Ruohan Zhang, Josiah Wong, Cem Gokmen, Sanjana Srivastava, Roberto Martín-Martín, Chen Wang, Gabrael Levine, Michael Lingelbach, Jiankai Sun, Mona Anvari, Minjune Hwang, Manasi Sharma, Arman Aydin, Dhruva Bansal, Samuel Hunter, Kyu-Young Kim, Alan Lou, Caleb R Matthews, Ivan Villa-Renteria, Jerry Huayang Tang, Claire Tang, Fei Xia, Silvio Savarese, Hyowon Gweon, Karen Liu, Jiajun Wu, Li Fei-Fei
- 标签: 多场景 | 长视距
- 链接: 论文 | 网站 | 代码
- 年份/会议: 2023, PMLR
-
VLABench: A Large-Scale Benchmark for Language-Conditioned Robotics Manipulation with Long-Horizon Reasoning Tasks
- 作者: Shiduo Zhang, Zhe Xu, Peiju Liu, Xiaopeng Yu, Yuan Li, Qinghui Gao, Zhaoye Fei, Zhangyue Yin, Zuxuan Wu, Yu-Gang Jiang, Xipeng Qiu
- 标签: 多场景 | 长视距
- 链接: 论文 | 网站 | 代码
- 年份/会议: 2024, arXiv
-
Open X-Embodiment: Robotic Learning Datasets and RT-X Models
- 作者: Open X-Embodiment Collaboration 等
- 标签: 多场景 | 长视距
- 链接: 论文 | 网站 | 代码
- 年份/会议: 2023, Evaluation Regime
评估协议与指标
影响基准可比性的常见因素:
- 成功标准: 二元成功 vs 分级进度
- 重置策略: 脚本重置 vs 人工重置 vs 自主重置
- 泛化划分: 对象分布外 vs 场景分布外 vs 任务分布外(定义各异)
- 具身转换: 在不同自由度和动作空间的机器人间进行评估
- 报告: 种子数量、任务数量、置信区间




