NiM-Benchmark

github2025-06-12 更新2025-06-22 收录

下载链接：

https://github.com/ast-fri/needles-in-images

下载链接

链接失效反馈

官方服务：

资源简介：

NiM-Benchmark是一个精心策划的基准测试，涵盖多样化的真实世界文档，包括报纸、餐厅菜单、讲座幻灯片和网站截图，专门设计用于评估多模态大型语言模型在复杂细节查找任务中的能力。

NiM-Benchmark is a curated benchmark covering diverse real-world documents including newspapers, restaurant menus, lecture slides, and website screenshots, specifically designed to evaluate the capabilities of multimodal large language models in complex detail-finding tasks.

创建时间：

2025-05-27

原始信息汇总

NiM-Benchmark 数据集概述

数据集简介

NiM-Benchmark 是一个专门设计用于评估多模态大语言模型（MLLMs）在细粒度视觉文档理解任务中性能的基准数据集。该数据集聚焦于模型在复杂文档中定位和推理精细细节的能力。

数据集内容

文档类型：
- 报纸（📰 Newspapers）
- 餐厅菜单（🍽️ Restaurant menus）
- 讲座幻灯片（📚 Lecture slides）
- 网站截图（🌐 Website screenshots）
样本示例：

数据集特点

专注于评估模型在复杂文档中定位精细细节的能力
包含多样化的真实世界文档类型
设计用于模拟人类在文档中搜索特定信息的场景

访问方式

Hugging Face 数据集：https://huggingface.co/datasets/AST-FRI/needles-in-images
交互式演示：查看 index.html 文件以获取样本图像和详细解释

引用信息

bibtex @article{needles-in-images-2024, title={Finding Needles in Images: Can Multi-modal LLMs Locate Fine Details?}, author={[Authors]}, journal={arXiv preprint}, year={2024} }

联系方式

通过 GitHub issues 或联系研究团队获取更多信息

搜集汇总

数据集介绍

构建方式

在文档理解研究领域，NiM-Benchmark的构建采用了多模态评估框架，通过精心筛选真实场景中的多样化文档类型，包括报纸版面、餐厅菜单、教学幻灯片及网页截图等典型素材。研究团队采用分层抽样策略确保样本覆盖不同复杂度层级，每份文档均经过专业标注人员对细粒度视觉元素的精确标注，构建过程严格遵循交叉验证流程以保证数据质量。

使用方法

研究者可通过Hugging Face平台直接获取该基准数据集，配套提供的交互式演示界面支持可视化探索样本特征。使用流程建议采用标准化的评估协议，首先加载预处理后的文档图像，继而运行Spot-IT方法中的高斯注意力机制与智能分块处理模块。为保障结果可比性，官方推荐在统一的计算环境下执行基准测试，并详细记录模型在定位精度、推理时间等维度的性能指标。

背景与挑战

背景概述

NiM-Benchmark数据集由AST-FRI研究团队于2024年推出，专注于评估多模态大语言模型在细粒度视觉文档理解任务中的性能。该数据集涵盖了报纸、餐厅菜单、讲座幻灯片和网站截图等多种真实场景文档，旨在解决当前多模态模型在复杂文档中定位和推理细微细节能力不足的核心问题。作为首个系统研究文档细节定位的基准测试，NiM-Benchmark为提升多模态模型在医疗、法律等专业领域的应用潜力提供了重要评估工具。

当前挑战

该数据集主要面临两个层面的挑战：在领域问题层面，文档细节定位任务需要模型同时具备全局上下文理解和局部特征捕捉能力，这对当前基于注意力机制的多模态模型提出了极高要求；在构建过程中，如何设计具有代表性的细粒度任务、平衡不同文档类型的复杂度，以及建立可靠的评估指标，都成为数据集构建者需要克服的技术难题。Spot-IT方法通过引入高斯注意力机制等创新设计，为这些挑战提供了部分解决方案。

常用场景

经典使用场景

在文档理解领域，NiM-Benchmark为评估多模态大语言模型（MLLMs）在复杂文档中定位细粒度细节的能力提供了标准化测试平台。该数据集通过报纸、餐厅菜单、讲座幻灯片和网页截图等多样化真实文档，模拟了人类在信息检索过程中常见的'大海捞针'场景，特别适合验证模型在营养信息提取、保修条款定位等需要精确注意力分配的任务中的表现。

解决学术问题

该数据集有效解决了多模态理解研究中细粒度视觉定位能力评估缺失的核心问题。通过构建具有挑战性的细节定位任务，NiM-Benchmark揭示了当前MLLMs在微观视觉推理方面的局限性，推动了注意力机制优化、局部特征融合等关键技术的研究进展，为提升模型在医疗报告分析、法律文书审查等专业场景的实用价值奠定了评估基础。

实际应用

在实际应用层面，基于NiM-Benchmark开发的解决方案已展现出在智能文档处理系统中的转化潜力。金融机构利用其衍生的定位技术快速提取合同关键条款，教育平台通过细粒度理解能力实现课件重点内容自动标注，餐饮行业则运用菜单分析功能进行营养成分可视化，显著提升了信息检索效率与准确性。

数据集最近研究