vlm_evaluation_v1.0

Hugging Face2025-03-28 更新2025-03-29 收录

下载链接：

https://huggingface.co/datasets/VLABench/vlm_evaluation_v1.0

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个用于评估视觉语言模型在具体场景中规划能力的评估数据集，名为VLM数据集。它包括多个子任务，每个子任务下有100个数据集，涵盖了从简单到复杂的任务，如添加调料、选择水果、进行化学实验等。数据集提供了图像输入、任务描述以及对应的真实动作序列输出。

This is an evaluation dataset named the VLM Dataset, which is designed to assess the planning capabilities of vision-language models (VLMs) in real-world scenarios. It comprises multiple subtasks, with 100 data samples under each subtask, covering tasks ranging from simple to complex, such as adding seasonings, selecting fruits, conducting chemical experiments, and so on. The dataset provides image inputs, task descriptions, and corresponding ground-truth action sequence outputs.

创建时间：

2025-03-26

搜集汇总

数据集介绍

构建方式

在具身智能研究领域，vlm_evaluation_v1.0数据集通过精心设计的模块化架构构建而成。该数据集包含常识推理、复杂任务、物理定律、语义理解和空间关系五大核心模块，每个模块下设多个具体任务场景。研究人员采用四视角图像堆叠和视觉提示分割技术构建输入数据，同时为每个任务配置环境参数和标准动作序列，形成100个完整评估案例的标准化结构。这种构建方式确保了评估环境的高度可复现性。

特点

该数据集最显著的特点在于其多维度评估体系的构建。通过常识推理模块检验基础认知能力，复杂任务模块评估长时程规划能力，物理定律模块测试自然规律理解程度，语义和空间模块分别验证语言-视觉对齐能力和空间关系推理水平。每个子任务配备四视角视觉输入和分割提示图像，配合详细的环境配置参数，为视觉语言模型提供了全面的能力评估框架。数据集涵盖从简单物品选择到德州扑克等复杂场景的多样化任务类型。

使用方法

使用该数据集时，研究人员需按照模块化结构加载对应任务数据。评估过程涉及解析环境配置文件以复现测试场景，处理包含多视角图像和分割提示的视觉输入数据，并将模型输出的动作序列与标准答案进行比对。数据集提供的标准化JSON格式输出文件便于自动化评估。建议配合原项目提供的评估指南，通过系统化的指标分析来全面衡量视觉语言模型在具身智能场景中的表现。

背景与挑战

背景概述

vlm_evaluation_v1.0数据集由OpenMOSS团队于2024年发布，旨在评估视觉语言模型（VLMs）在具身智能场景中的规划能力。该数据集作为VLABench基准测试的核心组成部分，聚焦于长时程推理任务下的机器人操作问题。研究团队通过多模态输入（包括四视角堆叠图像和语义分割提示图）与结构化动作序列输出的结合，为VLMs在复杂环境中的常识推理、物理规律理解、空间关系处理等核心能力提供了系统化评估框架。其创新性体现在将传统视觉语言任务扩展到具身智能领域，推动了机器人操作与高级认知能力的交叉研究。

当前挑战

该数据集面临的挑战主要体现在两个维度：在领域问题层面，如何准确评估VLMs对跨模态长时程任务的推理能力仍存在挑战，特别是涉及常识知识（如选择合适化学试管）与物理规律（如热膨胀现象）相结合的复杂场景；在构建过程中，研究团队需解决多模态数据对齐的精确性问题，包括视觉提示的语义一致性校验、动作序列的时序逻辑验证，以及100个测试场景的生态效度平衡。这些挑战使得数据集成为当前具身智能领域最具前沿性的评估基准之一。

常用场景

经典使用场景

在具身智能研究领域，vlm_evaluation_v1.0数据集为评估视觉语言模型在复杂物理环境中的规划能力提供了标准化测试平台。其多模态任务设计涵盖常识推理、物理定律理解、空间关系认知等维度，通过四视角图像输入与分段视觉提示的独特架构，系统检验模型在长周期任务序列中的决策连贯性。数据集特别适用于模拟厨房调味品添加、化学实验操作等需要多步骤推理的实体交互场景，为模型在动态环境中的适应性评估建立了严谨范式。

解决学术问题

该数据集有效解决了具身智能研究中视觉语言模型与现实物理世界脱节的核心问题。通过构建包含热膨胀、磁力效应等物理定律验证任务，以及德州扑克策略选择等复杂认知挑战，填补了现有基准在长时程推理评估上的空白。其细粒度的动作序列标注为分析模型在跨模态理解、时序动作规划等关键能力的缺陷提供了诊断工具，推动了机器人操作任务中语言条件控制的理论框架完善。

衍生相关工作

基于该数据集衍生的研究推动了视觉语言规划领域的多项突破。VLABench框架扩展了多智能体协作评估模块，而后续工作《LangRobot》则利用其物理定律子集开发了材料特性预测模型。在学术竞赛方面，该数据集启发了RoboTHOR挑战赛中的长周期任务设计，其空间关系标注规范更被广泛采纳为具身导航研究的评估标准。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集