MicroAGI-Labs/vlm-info-loss-results

Name: MicroAGI-Labs/vlm-info-loss-results
Creator: MicroAGI-Labs
Published: 2026-05-06 06:00:03
License: 暂无描述

Hugging Face2026-05-06 更新2026-05-10 收录

下载链接：

https://hf-mirror.com/datasets/MicroAGI-Labs/vlm-info-loss-results

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于评估视觉语言模型（VLM）在机器人操作数据集上的空间信息保留能力。研究背景显示，VLM连接器对视觉表示进行了非线性转换，以优化LLM的输入。评估协议包括两轮空间信息测试，涉及8个机器人操作数据集和3个摄像头视角。数据集包含多个模型家族的评估结果，如Gemma4和Qwen3.5，并提供了不同的评估变体，如标准评估和注意力图分析。关键发现包括Gemma4在生成有效边界框方面的优势，以及手腕摄像头对空间信息保留的负面影响。

Grounding evaluation results for vision-language models on robotics manipulation datasets. The background shows that VLM connectors perform a non-linear transformation of visual representations to optimize LLM input. The evaluation protocol includes two-pass grounding on 8 robotics manipulation datasets with 3 camera viewpoints. The dataset contains evaluation results for multiple model families, such as Gemma4 and Qwen3.5, and provides different evaluation variants, such as standard grounding and attention map analysis. Key findings include Gemma4s advantage in generating valid bounding boxes and the negative impact of wrist cameras on spatial information retention.

提供机构：

MicroAGI-Labs

搜集汇总

数据集介绍

构建方式

该数据集源自一项关于视觉语言模型（VLM）连接器对视觉表征影响的研究，旨在评估模型在机器人操作场景中的空间定位能力。研究者采用两阶段标注协议，首先进行场景清单列举，要求模型输出可见物体的边界框坐标，随后执行任务定位，根据具体操作任务识别相关物体。数据集涵盖8个机器人操作数据集及3个摄像头视角，包含2个外部视角与1个腕部视角，共计798个样本。模型输出经离线启发式评分器进行边界框有效性、去重及重叠分析，生成最终评估结果，从而构建起一个结构化、多维度的模型定位性能评测基准。

特点

该数据集的核心特点在于其聚焦于VLM连接器对视觉信息的压缩与扩展变换机制，揭示了连接器在增强主导物体表征的同时压缩次要物体类别身份信息的现象。实验表明，所有测试模型在连接器后均收敛至约83%的主导类别准确率，且物体计数能力得到改善。尤为重要的是，数据集发现Gemma4系列模型在边界框生成有效性上显著优于Qwen3.5系列（96%对42-55%），同时腕部摄像头视角普遍降低所有模型的定位性能，这些发现为理解连接器的非线性特征重组机制提供了关键实证。

使用方法

该数据集可通过HuggingFace平台直接获取，目录结构按模型家族与实验变体组织，包括标准定位评估（v2b）、注意力图捕获分析（v2b-attn）及无思考基线（v2b-nothink）等子目录。用户可访问每个模型对应的场景清单、任务定位、任务规划及评分结果子文件夹，其中注意力图数据以.npy格式存储。推荐结合配套的分析笔记本（notebooks/analysis.ipynb）进行深度挖掘，该笔记本涵盖了KNOR几何分析、CKA结构相似性、有效秩、线性探测及对数透镜等分析方法，便于研究者复现论文中的连接器分析结论。

背景与挑战

背景概述

该数据集由Microagi Labs研究团队创建，隶属于vlm-info-loss项目，旨在探究视觉-语言模型（VLM）中连接器对视觉表征的转换机制。研究核心聚焦于连接器执行的“压缩-再扩展”变换过程，即强化主导目标表征的同时压缩次要目标的类别身份信息。尽管不同模型在连接器前的基线准确率差异显著（69%至84%），但连接器后的模型均收敛至约83%的主导类别准确率，且目标计数能力得到提升，表明连接器并非简单删除信息，而是非线性重组特征以适配大语言模型。该数据集对机器人操作场景下的视觉推理与接地评估具有重要影响，为理解VLM内部信息流动与优化提供了关键基准。

当前挑战

领域层面，该数据集解决了VLM在机器人操作任务中空间接地能力评估的挑战，特别是连接器变换后视觉信息在完整解码过程中是否保留。传统评估多聚焦分类或计数，而本文强调目标检测与任务驱动的接地一致性。构建过程中，研究面临多重挑战：需在8个机器人操作数据集上平衡多样性与标注一致性；腕部摄像头视角显著降低所有模型的接地性能（更少目标检测与更低边界框有效性），印证了连接器的主导目标窄化效应；场景清单与任务接地的标签重叠率仅22%-27%，揭示了语义粒度不匹配的固有问题；此外，不同模型输出格式差异（如Gemma4原生支持box_2d格式）要求设计统一的启发式评分系统以公平评估边界框有效性、去重与重叠分析。

常用场景

经典使用场景

在机械可解释性与视觉-语言模型的交叉领域中，VLM Info Loss Grounding Results数据集为评估多模态大模型在机器人操作任务中的空间 grounding 能力提供了标准化的测试平台。该数据集涵盖 DROID、LIBERO、TACO-Play 等8个机器人操作数据集，包含3种相机视角（2个外部视角、1个腕部视角），通过场景清单、任务 grounding 和任务规划的三阶段协议，系统性地衡量模型从视觉输入到结构化边界框输出的端到端性能。其典型使用场景是对不同视觉-语言模型的连接器（connector）进行对比评估，揭示连接器在压缩-扩展变换过程中对空间信息的保留程度。

衍生相关工作

围绕该数据集衍生了一系列可视化与可解释性分析工作，包括基于 KNOR 几何的向量空间分析、CKA 结构相似性测量、有效秩计算以及线性探针实验。研究者还在118k COCO规模下对4个 Qwen 模型进行了对数透镜分析，深入解析了连接器内部的信息流动路径。后续工作扩展了注意力图捕获（v2b-attn 变体），通过 ViT 注意力图谱分析预训练与微调阶段前后特征表征的锁定机制，为理解大规模视觉-语言模型的知识蒸馏与迁移学习提供了新的实验范式。

数据集最近研究