ARK-Bench

Name: ARK-Bench
Creator: 四川大学·计算机科学学院; 四川大学·基础算法与模型国家重点实验室
Published: 2026-02-10 22:45:02
License: 暂无描述

arXiv2026-02-10 更新2026-02-12 收录

下载链接：

https://huggingface.co/datasets/XLearning-SCU/ARK-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

ARK是由四川大学团队构建的双轴多模态检索基准数据集，聚焦专业知识和复杂推理能力评估。该数据集包含1,547个查询和36,030个候选样本，覆盖视觉认知、自然科学等5大知识领域的17个子类，涉及表格、化学结构图等16种异构视觉数据类型。数据通过多源采集（现有基准、专业网站）和专家标注流程构建，特别设计硬负样本来避免浅层语义匹配。其核心应用是推动需要领域知识和多步推理的多模态检索系统发展，解决现有基准在专业场景和复杂推理评估上的不足。

ARK is a dual-axis multimodal retrieval benchmark dataset developed by a research team from Sichuan University, focusing on evaluating professional knowledge and complex reasoning abilities. This dataset contains 1,547 queries and 36,030 candidate samples, covering 17 subcategories across 5 major knowledge domains including visual cognition and natural sciences, and involves 16 types of heterogeneous visual data such as tables and chemical structural diagrams. The dataset is built through multi-source collection from existing benchmarks and professional websites, alongside expert annotation procedures, with hard negative samples specially designed to avoid shallow semantic matching. Its core application is to advance the development of multimodal retrieval systems that require domain knowledge and multi-step reasoning, addressing the limitations of existing benchmarks in evaluating professional scenarios and complex reasoning tasks.

提供机构：

四川大学·计算机科学学院; 四川大学·基础算法与模型国家重点实验室

创建时间：

2026-02-10

原始信息汇总

ARK-Bench 数据集概述

基本信息

数据集名称：ARK-Bench
发布者：XLearning-SCU
许可证：Apache License 2.0

数据说明

根据提供的资料，该数据集详情页面未包含关于数据内容、规模、用途、结构或获取方式的具体描述信息。

搜集汇总

数据集介绍

构建方式

在构建ARK数据集的过程中，研究团队采用了一种多层次、迭代式的数据策展流程。该流程以知识领域和推理技能的双轴分类法为指导，首先从权威来源和专家级基准中收集高质量的查询-目标对和问题-答案对，形成初始的正样本池和候选库。随后，利用多模态大语言模型对原始查询进行改写，以消除浅层语义线索，同时保留核心推理意图和知识约束。为了有效评估推理能力，数据集精心设计了针对性困难负样本，这些负样本在视觉或语义上与正样本高度相似，但违反了查询所隐含的关键条件或推理步骤。最后，通过嵌入模型进行筛选和人工验证，确保数据质量并减少误判，从而构建出一个既涵盖广泛知识领域又深入考察复杂推理能力的多模态检索基准。

特点

ARK数据集的核心特点在于其独特的双轴评估框架，将知识密集型和推理密集型检索任务明确分离。该数据集横跨视觉认知、自然科学、形式科学、人文社会科学以及工程技术五大知识领域，细分为17个子类型，并覆盖了包括自然图像、图表、化学结构图、艺术作品、漫画、认知地图等在内的16种异构视觉数据类型。在推理维度上，ARK系统性地评估了知识推理、空间推理、逻辑推理、符号推理、细粒度视觉推理和概念抽象六大类技能。其查询设计旨在避免捷径匹配，大多数实例都配备了需要多步推理才能区分的困难负样本，从而能够更精准地诊断检索模型在专业知识和复杂推理方面的真实能力瓶颈。

使用方法

使用ARK数据集进行模型评估时，通常遵循标准的多模态检索任务设定。给定一个查询（可以是单模态文本或多模态图文组合）和一个包含大量候选文档的图库，模型的目标是将与查询真正相关的目标项（正样本）尽可能排在检索结果的前列。评估主要采用Recall@k和nDCG@k等指标。为了提升性能，研究者可以探索多种方法，例如在推理阶段引入查询重写技术，通过大语言模型将原始查询转化为更明确、更能凸显推理线索的形式；或者采用重排序策略，先利用嵌入模型进行初步检索，再使用专门的排序模型对Top-K候选结果进行精细化排序。这些干预措施已被证明能有效提升模型在知识密集和推理密集任务上的表现。

背景与挑战

背景概述

ARK-Bench 是由四川大学计算机学院的研究团队于2026年推出的一个双轴多模态检索基准，旨在系统评估检索系统在知识密集与推理密集场景下的性能。该基准的构建源于当前多模态检索领域对专业知识和复杂推理能力评估的不足，传统基准多聚焦于日常生活图像的语义匹配，难以诊断模型在跨领域知识整合与多步推理方面的瓶颈。ARK-Bench 通过明确分离知识与推理两个评估维度，覆盖五大知识领域（视觉认知、自然科学、形式科学、人文社会科学、工程与技术）和六类推理技能（知识推理、空间推理、逻辑推理、符号推理、细粒度视觉推理、概念抽象），并纳入16种异构视觉数据类型，为多模态检索研究提供了更精细的诊断工具。其设计推动了检索系统向更深层次的认知能力演进，对促进检索增强生成（RAG）和深度研究等应用具有重要意义。

当前挑战

ARK-Bench 所解决的核心领域问题是多模态检索中知识密集与推理密集任务的评估挑战，传统检索基准难以区分模型失败源于知识缺失还是推理能力不足。在构建过程中，团队面临多重挑战：一是数据收集需覆盖广泛的专业领域与异构视觉类型，确保知识轴与推理轴的平衡性与代表性；二是查询与候选样本的设计需避免捷径匹配，通过引入针对性困难负样本迫使模型进行多步推理；三是标注工作需对每个实例同时沿知识与推理轴进行精细分类，保证评估维度的正交性与诊断价值。这些挑战使得ARK-Bench 能够更真实地反映现实场景中检索系统所需的高级认知能力，为未来模型开发提供了明确的改进方向。

常用场景

经典使用场景

在跨模态检索领域，ARK-Bench作为一个双轴评估基准，其经典使用场景在于系统性地诊断多模态检索模型在知识密集与推理密集任务上的表现差异。该基准通过覆盖视觉认知、自然科学、形式科学、人文社会科学及工程技术五大知识领域，并整合知识推理、空间推理、逻辑推理等六类推理技能，构建了包含1547个查询和36030个候选样本的异构视觉类型集合。研究者通常利用ARK-Bench对嵌入模型和重排序模型进行细粒度评估，通过召回率与归一化折损累计增益等指标，揭示模型在专业领域知识理解与复杂多步推理能力上的瓶颈，尤其在高分辨率图像细粒度感知和三维空间关系推断等挑战性任务中，ARK-Bench能够有效区分表面语义匹配与深层认知推理的模型表现。

解决学术问题

ARK-Bench主要解决了多模态检索研究中长期存在的评估局限性问题。传统基准大多关注日常图像的语义匹配，难以衡量模型在专业知识和复杂推理上的能力。该数据集通过双轴设计将知识域与推理技能解耦，使研究者能够清晰区分模型失败是由于领域知识缺失还是推理能力不足。其构建的针对性困难负样本有效抑制了捷径匹配现象，迫使模型必须进行多步骤证据推理才能完成检索。这一设计推动了多模态检索从浅层语义对齐向深层认知理解的范式转变，为开发兼具专业知识储备与结构化推理能力的检索系统提供了标准化评估框架，对提升人工智能在学术研究、专业咨询等场景中的可靠性和可解释性具有重要理论意义。

衍生相关工作

ARK-Bench的发布催生了一系列围绕推理增强型多模态检索的研究工作。在模型架构方面，基于大型语言模型的检索器（如Qwen3-VL-Embedding）开始显式注入推理信号，通过查询重写和重排序机制提升对复杂查询的理解能力。方法论上，研究者受ARK-Bench揭示的视觉推理瓶颈启发，提出了融合“图像思维”的嵌入模型改进方案，如在检索前阶段生成推理感知的图像描述以保留细粒度视觉证据。同时，该基准促进了跨模态推理评估体系的完善，后续工作如MR2-Bench等在此基础上进一步扩展了推理任务的多样性。这些衍生研究共同推动了多模态检索从语义匹配范式向知识推理范式的演进，为构建具备专业领域认知能力的下一代检索系统奠定了方法论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集