ImageMining

github2026-04-29 更新2026-05-09 收录

下载链接：

https://github.com/zai-org/ImageMining

下载链接

链接失效反馈

官方服务：

资源简介：

ImageMining是一个旨在评估多模态代理在整合高密度视觉理解与自主深度搜索能力方面的基准。与传统VQA任务不同，ImageMining要求模型通过代理行为（如局部裁剪、细节放大和视觉输入交叉引用）主动挖掘视觉输入。该数据集包含217个测试案例，覆盖7个主要领域和23个子类别，涉及5种推理类型。

ImageMining is a benchmark designed to evaluate multimodal agents' capabilities in integrating high-density visual understanding and autonomous deep search. Unlike traditional Visual Question Answering (VQA) tasks, ImageMining requires models to actively mine visual inputs via agentic behaviors such as local cropping, detail magnification, and cross-referencing of visual inputs. This dataset includes 217 test cases, covering 7 major domains and 23 subcategories, and encompasses 5 types of reasoning.

创建时间：

2026-04-28

原始信息汇总

数据集概述：ImageMining

ImageMining 是一个以视觉为中心的深度搜索基准测试，旨在评估多模态智能体在结合高密度视觉理解与自主深度搜索方面的能力。与传统 VQA 任务不同，该基准要求模型通过智能体行为（如局部裁剪、细节放大、交叉引用视觉输入以优化搜索查询）主动挖掘视觉信息。

核心设计原则

视觉优先推理：问题设计确保视觉输入是必需的，模型无法仅通过文本解决。
多步搜索：成功需要迭代搜索并利用视觉反馈，包括局部裁剪和细节放大。
多样化领域：覆盖 7 个主领域和 23 个子类别，涵盖科学、政治、文化、自然等。
标注推理链：每个条目包含人工验证的逐步推理过程，用于可解释性。

数据统计

指标	数量
测试用例总数	217
主领域数	7
子类别数	23
推理类型数	5

数据格式

数据集文件为 data.jsonl，每条记录包含以下字段：

字段	描述
`id`	唯一标识符
`category_l1`	一级领域类别
`category_l2`	细粒度子类别
`difficulty_tags`	所需推理类型列表
`image`	`images/` 目录中的对应图片文件名
`question`	问题文本（英文）
`answer`	地面真值答案（英文）
`question_zh`	原始问题（中文）
`answer_zh`	原始答案（中文）
`reasoning`	逐步推理链（英文）
`reasoning_zh`	原始推理链（中文）
`need_image_before_search`	搜索前是否需要视觉输入（`yes`/`no`）
`need_image_during_search`	搜索过程中是否需要视觉输入（`yes`/`no`）

示例条目

json { "id": 1, "category_l1": "Social & Humanities", "category_l2": "Politics", "difficulty_tags": ["Event Reasoning", "Image Retrieval Reasoning"], "image": "1.png", "question": "While holding an important position, this singer bought a rock record during a visit to China. What English text was written on the cover of that album?", "answer": "DOU WEI BLACK DREAM", "question_zh": "这位歌手在他担任要职时...", "answer_zh": "DOU WEI BLACK DREAM", "reasoning": "1. An image search reveals that the singer is Blinken...", "reasoning_zh": "1. 搜图得到该歌手是布林肯...", "need_image_before_search": "yes", "need_image_during_search": "yes" }

领域划分

主领域 (category_l1)

领域	数量
Rich Text	41
Science	40
Place	36
Social & Humanities	31
Product	31
Entertainment & Sports	25
Nature	13

子类别 (category_l2)

排名靠前的子类别包括：Place (36)、Others (36)、Complex Posters and Drawings (13)、Electronics & Digital (10)、Biology (9)、Astronomy (8)、Chemistry (8)、Physics (7)、Arts (7)、Document (7) 等。

推理类型 (difficulty_tags)

类型	数量
Image Retrieval Reasoning	102
Text Reasoning	99
Object Recognition	99
Event Reasoning	66
Spatiotemporal Reasoning	66

注意：每个测试用例可能涉及多种推理类型。

详细描述：

Object Recognition：细粒度识别植物、动物、文物及现实世界物体。
Spatiotemporal Reasoning：基于视觉线索的地理和时间推理。
Event Reasoning：理解新闻事件、政治里程碑及产品发布。
Text Reasoning：对嵌入的丰富文本（如学术论文、财务报告、文档）进行推理。
Image Retrieval Reasoning：通过搜索交叉引用视觉输入，检索特定艺术品、图像或信息。

数据集结构

ImageMining/ ├── data.jsonl # 主数据集（217 条） ├── images/ # 关联图片（217 个文件，需单独下载） │ ├── 1.png │ ├── 2.jpg │ └── ... └── README.md

图片下载：关联图片可从清华大学云盘下载，解压后放入 images/ 目录。

许可信息

该数据集仅供研究用途，详情请参阅许可文件。

搜集汇总

数据集介绍

构建方式

ImageMining数据集以视觉为核心，旨在评估多模态智能体在深度融合高密度视觉理解与自主深度搜索方面的能力。其构建过程精心设计了217个测试案例，覆盖7大领域（如社会科学、自然科学、娱乐体育等）及23个子类别，并包含5种推理类型（如对象识别、时空推理、事件推理）。每个案例均由图像、中英文问题与答案、以及人工验证的逐步推理链组成，同时标注了搜索前后是否需要视觉输入，确保了对视觉优先推理范式的严格测试。

特点

该数据集的核心特点在于其“视觉优先”设计，强调模型必须通过主动的视觉探索行为（如局部裁剪、细节放大和跨源交叉验证）而非依赖文本知识来解决问题。它创新性地引入了“深度-广度搜索”评估维度，衡量模型在信息源间的搜索广度与视觉推理深度。数据跨越政治、科学、文化等多元领域，每个条目均附有详细推理链，增强了可解释性，且任务难度与工具的精准使用高度关联。

使用方法

使用ImageMining时，研究者需从指定链接下载图像文件并解压至`images/`目录，与`data.jsonl`主文件配合使用。该JSONL文件包含每个案例的唯一标识、领域分类、推理类型标签、问题及答案（中英文）、图像文件名和搜索依赖标记。评测时，模型需调用多步工具（如裁剪、放大）来处理视觉输入，并通过迭代搜索得出答案，其表现可通过交叉验证推理链进行评估。数据集仅供研究使用，具体许可条款需参考协议文件。

背景与挑战

背景概述

ImageMining数据集由清华大学研究团队于近期创建，旨在评估多模态智能体在视觉密集理解与自主深度搜索融合任务上的能力。该数据集的核心研究问题聚焦于‘以视觉为中心的深度搜索’范式，要求模型通过多步工具调用（如局部裁剪、细节放大、跨模态检索）主动挖掘视觉输入中的关键信息。区别于传统VQA任务，ImageMining强调推理必须锚定于视觉上下文，而非依赖文本捷径或参数化知识，从而推动多模态智能体从‘看图提问’迈向‘看图深搜’的智能化演进。其覆盖科学、政治、文化等7大领域及23个子类目，为评估模型在视觉驱动的搜索推理、多步交互与领域泛化方面提供了精细化的评测基准，对多模态人工智能与信息检索交叉领域具有重要影响力。

当前挑战

ImageMining所解决的领域问题是多模态智能体在视觉密集型场景下的深度搜索推理能力匮乏。现有模型往往依赖文本匹配或浅层视觉识别，难以在复杂图像中执行多步搜索——例如从模糊的新闻照片中提取微小的文字信息并关联跨模态知识。构建过程中面临的挑战包括：1）任务设计需确保‘视觉不可或缺’，避免模型通过语言先验或记忆绕开视觉推理；2）多步搜索行为（裁剪、放大、跨源检索）的标注需人工逐帧验证，217个测试用例对应217张高密度视觉输入，且每个用例需拆解出精确的推理链；3）覆盖7领域23子类目，需平衡不同域的数据分布以评估泛化性，同时确保图像中微小细节的可解耦性——如电子设备上的序列号、学术图表中的坐标值等，对图像分辨率与标注精度提出严苛要求。

常用场景

经典使用场景

ImageMining基准测试最经典的使用场景在于评估多模态智能体在视觉密集型深度搜索任务中的表现。与传统视觉问答不同，该数据集要求模型通过代理行为自主挖掘视觉输入，执行多步骤工具调用，如局部裁剪、细节放大以及跨视觉信息引用以优化搜索查询。这种设计将推理锚定于视觉上下文，迫使模型在缺乏文本捷径或参数化知识的情况下，依据精细的视觉线索进行推演。典型任务涵盖从社交人文到科学自然等七个领域，例如通过人物照片中细微的视觉标记识别事件背景并检索相关信息，显著挑战了模型在视觉推理深度与搜索广度上的综合能力。

实际应用

在实际应用中，ImageMining所定义的视觉密集型深度搜索能力可广泛赋能专业领域的精准信息检索与决策支持。例如，在新闻舆情分析中，系统可通过图片中的微小标识自动定位事件发生地、时间与关键人物，辅助记者快速核实信息来源；在学术研究领域，模型能根据论文图表中的细粒度细节跨库检索相关文献，提升文献综述效率；在电子商务场景中，通过商品图像中的纹理、标签等视觉特征进行跨平台比价与真伪鉴别，增强消费者权益保护。此外，该基准的跨域覆盖特性使其适用于文化遗产保护中的文物溯源、生物多样性调查中的物种鉴定等复杂场景，彰显了视觉主动搜索技术的广阔应用前景。

衍生相关工作

ImageMining作为视觉中心深度搜索的标杆性基准，已衍生出多项具有影响力的研究工作。其中之一是推动了多模态智能体的工具使用能力研究，研究者基于该数据集开发了结合局部裁剪、图像缩放与跨源检索的端到端代理架构，显著提升了模型在复杂视觉推理任务中的表现。此外，该基准还启发了视觉-语言模型在精细化搜索策略上的改进，如通过强化学习优化多步工具调用的路径规划，以及引入人类验证的推理链作为监督信号来训练模型的可解释性。在评估层面，ImageMining的“深度-广度-搜索”谱系框架被后续工作扩展为涵盖更多维度的通用多模态搜索评估协议，进一步推动了该领域的系统化发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集