vlm-info-loss-results

Hugging Face2026-04-17 更新2026-04-18 收录

下载链接：

https://huggingface.co/datasets/MicroAGI-Labs/vlm-info-loss-results

下载链接

链接失效反馈

官方服务：

资源简介：

VLM Grounding Evaluation Results 数据集是 vlm-info-loss 项目的一部分，专注于评估视觉语言模型（VLM）在机器人操作数据集上的接地性能。该数据集旨在研究 VLM 连接器如何转换视觉表示，特别是在空间信息保留和任务特定接地方面的表现。数据集包含对 8 个机器人操作数据集（如 DROID、LIBERO、TACO-Play 等）的两阶段接地评估，涉及场景清单、任务接地、任务计划和离线评分等步骤。测试了包括 Gemma4 和 Qwen3.5 在内的多个模型家族，每个模型有不同的参数规模和连接器类型。数据集目录结构包括原始模型输出、评分结果和注意力图等。关键发现包括 Gemma4 在边界框有效性方面表现优异，而腕部摄像头在所有模型中都降低了接地性能。

创建时间：

2026-04-16

原始信息汇总

数据集概述

基本信息

数据集名称: VLM Info Loss - Grounding Results
许可证: Apache-2.0
任务类别: 目标检测、视觉问答
标签: 机械可解释性、视觉语言模型、基础定位、机器人学
描述: 视觉语言模型在机器人操作数据集上的基础定位评估结果。

背景与目的

该数据集是 vlm-info-loss 项目的一部分，旨在研究视觉语言模型连接器如何转换视觉表征。嵌入级分析表明，连接器执行“压缩-扩展”转换：强化主导对象表征，同时压缩次要对象的类别身份。基础定位评估旨在测试端到端流程：在连接器中幸存的空间信息是否也能在完整的LLM解码成结构化边界框输出的过程中幸存。

评估协议

在8个机器人操作数据集（DROID, LIBERO, TACO-Play, JACO-Play, Berkeley Autolab UR5, MolmoAct, NYU Door Opening, UT Austin MUTEX）上，使用3个摄像机视角（2个外部，1个腕戴式）进行两轮基础定位：

场景清单 — “列出此图像中所有可见对象及其边界框坐标”。
任务基础定位 — “给定任务‘{task}’，识别相关对象及其边界框”。
任务规划 — “描述完成此任务的逐步计划”。
评判 — 离线启发式评分（边界框有效性、去重、重叠分析）。

评估模型

系列	模型	参数量	连接器	样本数	变体
Gemma4	gemma-4-E2B-it	2B	线性投影（9倍合并）	798	v2b, v2b-attn
Gemma4	gemma-4-E4B-it	4B	线性投影（9倍合并）	798	v2b
Qwen3.5	Qwen3.5-4B	4B	补丁合并MLP（4倍）	798	v2b, v2b-attn（进行中）
Qwen3.5	Qwen3.5-9B	9B	补丁合并MLP（4倍）	798	v2b
Qwen3.5	Qwen3.5-27B	27B	补丁合并MLP（4倍）	—	v2b（进行中）

结果变体

v2b/ — 标准基础定位评估（每个数据集50个片段）。
v2b-attn/ — 包含ViT注意力图捕获的基础定位，用于SFT锁定前后的分析。
v2b-nothink/ — 禁用思维模式的基线（进行中）。

目录结构

grounding/ ├── v2b/ │ ├── qwen35-4b/ │ │ ├── scene_inventory/ # 场景轮次的原始模型输出 │ │ ├── task_grounding/ # 任务轮次的原始模型输出 │ │ ├── task_plan/ # 逐步计划 │ │ └── judge/ # 评分结果（scores.json） │ └── qwen35-9b/ ├── v2b-attn/ │ ├── gemma4-e2b/ │ │ ├── scene_inventory/ │ │ ├── task_grounding/ │ │ ├── task_plan/ │ │ ├── judge/ │ │ └── attention/ # 每层ViT注意力图（.npy） │ └── qwen35-4b/ └── v2b-nothink/ # 进行中

关键发现

Gemma4产生有效边界框的比例为96%（E2B），而Qwen3.5为42-55%，主要因为Gemma4使用原生box_2d输出格式进行训练。
腕戴式摄像机会降低所有模型的基础定位性能 — 检测到的对象更少，边界框有效性更低，这与连接器的主导对象窄化效应一致。
E4B比E2B检测到更多对象（平均4.1 vs 3.7），但精度略低（91% vs 96%）。
任务-场景标签重叠率较低（22-27%），即使对于Gemma4也是如此，反映了场景清单和任务特定基础定位之间真实的标签粒度不匹配。

相关分析

完整的连接器分析请参见 notebooks/analysis.ipynb，包括：KNOR几何、CKA结构相似性、有效秩、线性探测（主导类别 + 多标签mAP）、对象计数消融，以及在118k COCO规模上对4个Qwen模型的logit lens分析。

搜集汇总

数据集介绍

构建方式

在机器人操作领域，视觉语言模型的空间感知能力评估至关重要。该数据集的构建基于一套严谨的双阶段评估协议，覆盖了八个主流机器人操作数据集，包括DROID、LIBERO等，并整合了三种摄像机视角。评估过程分为场景清单列举、任务相关物体定位、任务步骤规划以及离线启发式评分四个环节，旨在系统性地检验模型从视觉特征提取到结构化边界框输出的端到端性能。

特点

该数据集的核心特点在于其多维度的评估框架与精细的结果变体设计。它不仅提供了标准接地评估结果，还包含了带有视觉Transformer注意力图捕获的变体，用于分析模型微调前后的表征锁定现象。数据集清晰地揭示了不同模型家族在边界框输出有效性上的显著差异，例如Gemma4凭借其原生输出格式展现出高达96%的有效框生成率，同时深入剖析了腕部摄像机视角对模型感知性能的普遍负面影响。

使用方法

为有效利用该数据集进行研究，用户可依据其清晰的目录结构导航至特定模型与评估变体的结果文件夹。每个模型目录下均包含场景清单、任务定位、任务规划的原始输出以及经过评分的最终结果。研究人员可通过分析`judge/`目录下的评分文件，并结合`attention/`目录中的注意力图数据，深入探究视觉语言模型连接器对空间信息进行非线性重组与压缩的内在机制。

背景与挑战

背景概述

VLM-info-loss-results数据集由microagi-labs研究团队于近期构建，旨在系统评估视觉语言模型在机器人操作任务中的空间定位能力。该数据集聚焦于视觉语言模型连接器对视觉表征的压缩与重组机制，核心研究问题在于探究模型如何将高维视觉信息转化为适合大型语言模型处理的低维特征，并检验这种转换是否能在端到端管道中保留关键的空间定位信息。通过对Gemma4、Qwen3.5等主流模型在八种机器人操作数据集上进行两阶段定位评估，该研究揭示了连接器普遍存在的“压缩后扩展”非线性变换模式，为理解视觉语言模型的内部工作机制提供了实证基础，对机器人感知与规划领域的模型可解释性研究具有重要推动作用。

当前挑战

该数据集致力于解决视觉语言模型在机器人操作场景中空间定位的挑战，即模型如何准确理解图像内容并生成结构化边界框输出。具体而言，挑战体现在模型需在复杂多视角环境下维持对次要物体类别身份的识别，同时避免因连接器的特征重组而导致的空间信息丢失。在构建过程中，研究面临多重困难：不同模型输出格式的异构性使得统一评估变得复杂，例如Gemma4原生支持边界框格式而Qwen3.5则不然；手腕相机视角引发的视觉退化问题普遍降低了所有模型的定位性能；此外，场景清单与任务特定标注之间的粒度失配，导致任务场景标签重叠率低下，这要求评估协议必须设计精细的启发式评分机制以处理边界框的有效性、去重与重叠分析。

常用场景

经典使用场景

在视觉语言模型（VLM）的机制可解释性研究中，vlm-info-loss-results数据集被经典地用于评估模型在机器人操作任务中的空间信息保留能力。通过整合DROID、LIBERO等八个机器人操作数据集，该数据集支持两阶段评估流程，即场景清单与任务定位，从而系统分析VLM连接器如何压缩并重组视觉特征以适配大语言模型的输入需求。这一场景为理解模型内部表征的动态变化提供了实证基础。

实际应用

在机器人自主操作领域，该数据集的实际应用体现在提升视觉语言模型对复杂场景的理解与交互能力。通过评估模型在不同摄像机视角（如外部视角与腕部视角）下的定位性能，能够指导模型优化以增强在真实环境中的对象检测与任务规划鲁棒性。例如，识别腕部摄像头导致的性能退化问题，有助于改进机器人视觉系统设计，确保在动态操作中维持高精度的空间感知。

衍生相关工作

基于该数据集的分析，衍生出一系列关于VLM连接器机制的经典研究工作，包括对KNOR几何结构、CKA结构相似性、有效秩及线性探测方法的深入探索。这些工作进一步扩展至多标签mAP评估、对象计数消融实验以及跨Qwen模型系列的logit透镜分析，为模型表征的量化比较与优化提供了方法论框架，持续推动视觉与语言融合领域的基础理论研究。

以上内容由遇见数据集搜集并总结生成