OMIBench
收藏arXiv2026-04-23 更新2026-04-24 收录
下载链接:
https://github.com/LightChen233/OMIBench
下载链接
链接失效反馈官方服务:
资源简介:
OMIBench是由哈尔滨工业大学等机构联合构建的奥林匹克竞赛级多图像推理基准数据集,涵盖生物、化学、数学和物理四大领域共1322道题目,平均每题包含3.07张关联图像。该数据集通过OCR转换和专家双重校验流程构建,包含人工标注的解题思路和答案,支持开放式和选择题两种题型。其核心价值在于评估大视觉语言模型在多图像证据整合、跨模态推理方面的能力,为提升复杂科学问题求解的AI系统提供标准化测试平台。
OMIBench is an Olympiad-level multi-image reasoning benchmark dataset jointly constructed by Harbin Institute of Technology and other institutions. It covers a total of 1322 questions across four fields including biology, chemistry, mathematics and physics, with an average of 3.07 associated images per question. This dataset is built via OCR conversion and a dual expert verification workflow, and contains manually annotated problem-solving rationales and answers, supporting both open-ended and multiple-choice question types. Its core value lies in evaluating the capabilities of large vision-language models in multi-image evidence integration and cross-modal reasoning, providing a standardized test platform for advancing AI systems for complex scientific problem solving.
提供机构:
哈尔滨工业大学·社会计算与交互机器人研究中心; 中南大学; 复旦大学; 香港大学; 哈尔滨工业大学(深圳); 贵州大学·文本计算与认知智能教育部工程研究中心
创建时间:
2026-04-23
搜集汇总
数据集介绍
构建方式
OMIBench的构建历经多阶段精密流程,其数据来源涵盖国际与国家级奥林匹克竞赛(如国际数学、化学、生物、物理奥林匹克)及经过验证的学术基准。团队首先从PDF档案中利用Mathpix OCR提取题目与图像,转换为结构化Markdown格式,并严格人工校验。随后,借助Gemini-2.5-pro-thinking模型生成最多16个候选推理过程,经自动筛选保留答案正确的条目;对于无正确解的情况,补充参考答案重新生成。最终由竞赛经验丰富的领域专家对候选推理进行逐条验证、修正或重写,确保每个样本均附带高保真、步骤完备的推理注解。此外,通过双重审核协议和每周5%样本的回归测试,形成闭环质量保障,最终汇集超过1,300道涵盖生物、化学、数学、物理四大学科的多图像奥赛级题目。
特点
OMIBench的核心特色在于其多图像交织的奥林匹克级推理挑战。与现有基准不同,OMIBench的每道题目均要求模型自主对齐、筛选并整合分布于多张图像中的关键证据,执行跨图像、跨模态的深度推理。数据集平均包含3.07张图像,题目形式涵盖选择题与开放式解答,并全部附有专家验证的分步推理过程。实验表明,即使最强的Gemini-3-Pro模型也仅达到约50%的准确率,较单图像场景下降超过25个百分点。错误分析揭示,模型在视觉感知(13%)、跨图像关联(29%)和逻辑推理(41%)三方面存在系统性缺陷,凸显了当前视觉-语言模型在多图像复杂推理上的根本性瓶颈。
使用方法
OMIBench提供了两种评测任务:多项选择推理与开放式推理。用户需将题目文本与相关联的图像序列作为输入,引导模型生成逐步推理链后输出最终答案,答案应置于\boxed{}中。评估采用精确匹配准确率(适用于数值与选项)与GPTScore语义匹配度(适用于开放式答案)双重指标,以全面衡量模型推理质量。数据集及评测脚本已公开于GitHub与Hugging Face仓库,支持零样本测试及多种改进策略(如长链思维、测试时扩展、上下文学习)的对比分析,为研究多图像推理提供标准化的评测平台。
背景与挑战
背景概述
OMIBench诞生于2026年4月,由哈尔滨工业大学、中南大学、复旦大学、香港大学等多家机构的十余位研究人员共同创建。该数据集瞄准大型视觉语言模型在多图像奥林匹克级推理中的关键能力缺口,旨在评估模型是否能在生物学、化学、数学和物理等学科中,自主跨图像对齐和整合分散证据以解决竞赛级难题。作为当前最具挑战性的多图像推理基准之一,OMIBench包含超过1000道国际奥林匹克竞赛题,每道题均配有专家注释的推理路径,即便最强模型如Gemini-3-Pro也仅能取得约50%的准确率,显著推动了多模态推理研究的前沿边界。
当前挑战
OMIBench面临的挑战涵盖领域问题与构建过程两个层面。在领域层面,现有模型普遍难以完成跨图像信息流维持、跨图像语义对齐以及深度融合的多步推演,视觉感知错误、跨图像关联失败和逻辑推理谬误分别占比13%、29%和41%,反映出从单图像到多图像推理能力的巨大鸿沟。在构建层面,数据集需要从国际与国内奥林匹克竞赛原始档案中手工收集数学、物理、化学、生物题目,利用OCR转化并人工核验,再通过LLM辅助生成候选解答并由专家级标注员逐一验证与精修,同时设计严谨的双重审核流程与每周抽样回归测试,确保超过1000道多图像问题的推理链、答案与标注均精准无误。
常用场景
经典使用场景
在大型视觉语言模型的评估体系中,OMIBench被广泛用于衡量模型在奥林匹克级别多图像推理任务上的表现。其经典使用场景涵盖生物、化学、数学和物理等多个学科,要求模型在多幅图像之间进行信息对齐、筛选与整合,以完成复杂的多步骤推理。例如,在几何证明题中,模型需同时解析多个示意图中的空间关系与数值约束,进而推导出正确答案。这一基准尤其适合检验模型在跨图像、跨模态逻辑推理方面的能力边界,成为评估当前最强视觉语言模型推理深度的关键工具。
实际应用
在实际应用中,OMIBench为科研教育领域的多模态智能辅助系统提供了可靠的评测基础。例如,在自动化科学试题解答系统中,该基准可用于验证系统能否像人类专家一样,综合多张实验示意图、数据图表或几何图形进行跨图像推理。在智能教育平台中,OMIBench的难度层次有助于诊断学生在多图联动分析中的薄弱环节,从而生成更有针对性的学习建议。此外,该基准也服务于科学图像解读工具的性能评估,推动其在医学影像分析、工程图纸理解等需要多视图融合的领域落地应用。
衍生相关工作
OMIBench的提出催生了多项后续经典研究工作。一方面,基于其暴露的跨图像推理瓶颈,研究者探索了长链思维(Long CoT)、测试时扩展(Test-Time Scaling)和思维图像化(Think-with-Image)等增强策略,分析了这些方法在奥林匹克多图像推理中的有限增益。另一方面,OMIBench推动了多图像指令微调数据集的构建,如CMMCoT和MMDU,验证了当前训练数据在奥林匹克级多图像推理上的不足。此外,该基准还激发了对外部视觉工具(如Visual Sketchpad、SlowPerception)与内部推理增强方法的系统评估,揭示了工具调用与强基座模型协同的必要性,为未来多模态推理架构的创新指明了方向。
以上内容由遇见数据集搜集并总结生成



