LENS

github2025-04-22 更新2025-04-25 收录

下载链接：

https://github.com/Lens4MLLMs/LENS

下载链接

链接失效反馈

官方服务：

资源简介：

LENS是一个多层级基准测试，专门设计用于评估多模态大型语言模型（MLLMs）在感知、理解和推理三个层次上的表现。它包含8个任务和12个真实场景，拥有3.4K当代照片和40K领域特定问答对，全部由人工标注并经领域专家审核。图像多样且新颖，约53%的图像来自2025年，80%以上的图像来自2024年9月之后。数据集还包括300多个细粒度视觉类别和65种不同的问题风格，旨在评估功能视觉智能和推理能力。

LENS is a multi-level benchmark specially designed to evaluate the performance of Multimodal Large Language Models (MLLMs) across three core dimensions: perception, understanding, and reasoning. It comprises 8 tasks and 12 real-world scenarios, encompassing 3.4K contemporary photographs and 40K domain-specific question-answer pairs, all manually annotated and reviewed by domain experts. The images are diverse and novel, with approximately 53% sourced from 2025, and over 80% collected after September 2024. The dataset also includes over 300 fine-grained visual categories and 65 distinct question styles, aiming to assess functional visual intelligence and reasoning capabilities.

创建时间：

2025-04-22

原始信息汇总

LENS 多模态大型语言模型评估基准数据集

📌 数据集概述

名称: LENS (Large-scale Evaluation Benchmark for Multimodal LLMs)
类型: 多模态评估基准
设计目标: 通过三级评估体系(感知、理解、推理)评估MLLMs，涵盖8项任务和12个现实场景

🌟 核心特征

数据规模
- 3.4K张当代照片
- 40K个领域特定问答对(人工标注+专家审核)
数据时效性
- 53%图像来自2025年
- 80%以上图像采集于2024年9月之后
- 覆盖12个现实场景
标注粒度
- 300+细粒度视觉类别
- 65+种问题类型

🎯 评估任务

感知层任务
- 描述性物体计数
- 物体检测(300+细粒度类别)
- 物体存在性判定
理解层任务
- 关系提取(如"持有"、"相邻"等)
- 视觉定位(自然语言→图像区域)
- 区域OCR(指定区域内文字识别)
推理层任务
- 空间关系理解
- 场景知识推理

📊 基准性能对比

模型(Qwen2.5-VL)	参数量	感知得分	理解得分	推理得分
3B版本	3B	0.5876	0.6652	0.6075
7B版本	7B	0.5835	0.7158	0.7061
32B版本	32B	0.6225	0.7457	0.5166
72B版本	72B	0.5975	0.7598	0.7095

⚠️ 使用声明

所有人脸图像均已进行隐私保护处理
数据集发布状态: 待论文接收后公开(当前未发布)

搜集汇总

数据集介绍

构建方式

LENS数据集作为多模态大语言模型（MLLMs）评估的标杆，其构建过程体现了严谨的科学方法论。研究团队通过人工标注与专家复核的双重机制，精心采集了3.4千张当代摄影图像，并配套生成了4万组领域特异性问答对。数据时间维度上突破性地覆盖了2025年及之后的前沿视觉内容，其中53%的图像具有时效性优势。标注体系采用三级认知层次框架（感知、理解、推理），细分为12个现实场景和300余个精细视觉类别，确保评估维度的系统性与完备性。

使用方法

研究人员可通过官方发布的评估框架系统性地验证模型性能。数据集支持端到端的多模态能力测试，涵盖物体计数、空间关系解析等8项核心任务。使用流程建议遵循三级递进评估策略：先通过感知层任务验证基础视觉编码能力，再逐步考察理解层的语义关联分析，最终完成推理层的复杂问题求解。官方提供的标准化评分体系支持横向对比，而细粒度类别标注可用于诊断模型在特定领域的认知局限。

背景与挑战

背景概述

LENS数据集是专为评估多模态大语言模型（MLLMs）而设计的多层次基准测试工具，由研究团队在2024年构建并发布。该数据集通过三个层次——感知、理解和推理，涵盖了8项任务和12种现实场景，旨在全面评估模型的功能性视觉智能。LENS包含3.4K张当代照片和40K个领域特定问答对，所有数据均由人工标注并经领域专家审核。其图像数据具有时效性，约53%来自2025年，80%以上采集于2024年9月之后，确保了内容的时效性和多样性。LENS的推出标志着大型推理模型（LRM）时代的到来，为计算机视觉、多模态学习和大型语言模型领域的研究者提供了一个严谨、可扩展的评估平台。

当前挑战

LENS数据集面临的挑战主要体现在两个方面。首先，在领域问题方面，该数据集旨在解决多模态大语言模型在功能性视觉智能评估中的难题，包括从简单的模式识别到复杂的推理和理解的跨越。具体任务如描述性物体计数、物体检测、关系提取等，要求模型在遮挡、尺度变化或杂乱背景下仍能准确理解和推理。其次，在构建过程中，团队需处理大规模高质量数据的标注问题，确保超过300个细粒度视觉类别的准确性，同时支持65种以上不同问题风格的开放评估协议。此外，保持图像数据的时效性和多样性，以及设计具有挑战性的认知任务，也是构建过程中的重要挑战。

常用场景

经典使用场景

在计算机视觉与多模态学习领域，LENS数据集通过其层次化的评估框架（感知、理解、推理）成为测试多模态大语言模型（MLLMs）性能的黄金标准。研究者常利用其3.4K高时效性图像和40K人工标注问答对，验证模型在物体计数、空间关系理解等8类任务中的表现。例如，Qwen2.5-VL等开源模型在该基准上的对比实验，揭示了模型规模与跨层级认知能力的非线性关系。

解决学术问题

LENS直击多模态研究的核心痛点——现有基准对高阶推理能力评估的不足。其设计的300+细粒度类别和65种提问范式，系统性地量化了模型从视觉模式识别到语义推理的跃迁。特别在关系提取、场景知识推断等任务中，该数据集暴露了当前模型在系统性思维（System 2）层面的缺陷，为突破认知智能瓶颈提供了可衡量的研究靶点。

实际应用

该数据集12个现实场景的时效性数据（53%图像摄于2025年后），使其成为智能客服、自动驾驶等工业场景的试金石。在医疗影像分析领域，其区域OCR和视觉 grounding 任务可直接优化报告生成系统；零售场景中的细粒度物体检测则助力库存管理智能化。开放式的评估协议更贴近真实用户交互需求，推动技术落地过程中的体验优化。

数据集最近研究