ImageMining
收藏数据集概述:ImageMining
ImageMining 是一个以视觉为中心的深度搜索基准测试,旨在评估多模态智能体在结合高密度视觉理解与自主深度搜索方面的能力。与传统 VQA 任务不同,该基准要求模型通过智能体行为(如局部裁剪、细节放大、交叉引用视觉输入以优化搜索查询)主动挖掘视觉信息。
核心设计原则
- 视觉优先推理:问题设计确保视觉输入是必需的,模型无法仅通过文本解决。
- 多步搜索:成功需要迭代搜索并利用视觉反馈,包括局部裁剪和细节放大。
- 多样化领域:覆盖 7 个主领域和 23 个子类别,涵盖科学、政治、文化、自然等。
- 标注推理链:每个条目包含人工验证的逐步推理过程,用于可解释性。
数据统计
| 指标 | 数量 |
|---|---|
| 测试用例总数 | 217 |
| 主领域数 | 7 |
| 子类别数 | 23 |
| 推理类型数 | 5 |
数据格式
数据集文件为 data.jsonl,每条记录包含以下字段:
| 字段 | 描述 |
|---|---|
id |
唯一标识符 |
category_l1 |
一级领域类别 |
category_l2 |
细粒度子类别 |
difficulty_tags |
所需推理类型列表 |
image |
images/ 目录中的对应图片文件名 |
question |
问题文本(英文) |
answer |
地面真值答案(英文) |
question_zh |
原始问题(中文) |
answer_zh |
原始答案(中文) |
reasoning |
逐步推理链(英文) |
reasoning_zh |
原始推理链(中文) |
need_image_before_search |
搜索前是否需要视觉输入(yes/no) |
need_image_during_search |
搜索过程中是否需要视觉输入(yes/no) |
示例条目
json { "id": 1, "category_l1": "Social & Humanities", "category_l2": "Politics", "difficulty_tags": ["Event Reasoning", "Image Retrieval Reasoning"], "image": "1.png", "question": "While holding an important position, this singer bought a rock record during a visit to China. What English text was written on the cover of that album?", "answer": "DOU WEI BLACK DREAM", "question_zh": "这位歌手在他担任要职时...", "answer_zh": "DOU WEI BLACK DREAM", "reasoning": "1. An image search reveals that the singer is Blinken...", "reasoning_zh": "1. 搜图得到该歌手是布林肯...", "need_image_before_search": "yes", "need_image_during_search": "yes" }
领域划分
主领域 (category_l1)
| 领域 | 数量 |
|---|---|
| Rich Text | 41 |
| Science | 40 |
| Place | 36 |
| Social & Humanities | 31 |
| Product | 31 |
| Entertainment & Sports | 25 |
| Nature | 13 |
子类别 (category_l2)
排名靠前的子类别包括:Place (36)、Others (36)、Complex Posters and Drawings (13)、Electronics & Digital (10)、Biology (9)、Astronomy (8)、Chemistry (8)、Physics (7)、Arts (7)、Document (7) 等。
推理类型 (difficulty_tags)
| 类型 | 数量 |
|---|---|
| Image Retrieval Reasoning | 102 |
| Text Reasoning | 99 |
| Object Recognition | 99 |
| Event Reasoning | 66 |
| Spatiotemporal Reasoning | 66 |
注意:每个测试用例可能涉及多种推理类型。
详细描述:
- Object Recognition:细粒度识别植物、动物、文物及现实世界物体。
- Spatiotemporal Reasoning:基于视觉线索的地理和时间推理。
- Event Reasoning:理解新闻事件、政治里程碑及产品发布。
- Text Reasoning:对嵌入的丰富文本(如学术论文、财务报告、文档)进行推理。
- Image Retrieval Reasoning:通过搜索交叉引用视觉输入,检索特定艺术品、图像或信息。
数据集结构
ImageMining/ ├── data.jsonl # 主数据集(217 条) ├── images/ # 关联图片(217 个文件,需单独下载) │ ├── 1.png │ ├── 2.jpg │ └── ... └── README.md
图片下载:关联图片可从 清华大学云盘 下载,解压后放入 images/ 目录。
许可信息
该数据集仅供研究用途,详情请参阅许可文件。




