MISS-QA

github2025-07-13 更新2025-07-22 收录

下载链接：

https://github.com/yilunzhao/MISS-QA

下载链接

链接失效反馈

官方服务：

资源简介：

MISS-QA（多模态科学论文信息寻求 - 问答）是第一个专门设计用于评估多模态基础模型在科学文献中解释示意图和回答信息寻求问题能力的基准。它包括1500个由专家研究人员标注的问答对，覆盖465篇与AI相关的arXiv论文，专注于示意图，并评估了18种前沿视觉语言模型。

MISS-QA (Multimodal Scientific Paper Information Seeking - Question Answering) is the first benchmark specifically designed to evaluate the ability of multimodal foundational models to interpret diagrams in scientific literature and answer information seeking questions. It includes 1,500 question-answer pairs annotated by expert researchers, covering 465 arXiv papers related to AI, focusing on diagrams, and assesses 18 leading visual language models.

创建时间：

2025-07-09

原始信息汇总

MISS-QA: 多模态科学信息寻求问答基准数据集

数据集概述

名称: MISS-QA (Multimodal Information-Seeking over Scientific papers – Question Answering)
类型: 多模态科学文献问答基准
主要目标: 评估多模态基础模型在科学文献中解释示意图并回答信息寻求问题的能力

核心特点

数据规模: 包含1500个专家标注的问答对
覆盖范围: 涉及465篇arXiv上的AI相关论文
焦点内容: 专门针对科学文献中的示意图(非普通图表或表格)
评估对象: 测试了18种前沿视觉语言模型

数据结构

每个数据样本包含:

科学论文中的示意图
突出显示的视觉元素(带边界框标注)
自由形式的信息寻求问题
对应的科学上下文
人工标注的答案(或标记为不可回答)

应用场景

设计原理分析
实现细节查询
文献背景了解
实验结果解读
其他(如局限性、伦理问题等)

使用指南

环境配置

bash git clone https://github.com/QDRhhhh/MISSQA.git cd MISSQA conda create --name missqa python=3.10 conda activate missqa pip install -r requirements.txt

模型推理

bash bash scripts/vllm_large.sh

输出结果保存路径: ./outputs/

精度评估

bash python acc_evaluation.py

处理后的输出保存路径: ./processed_outputs/

搜集汇总

数据集介绍

构建方式

MISS-QA数据集的构建过程体现了严谨的学术规范，研究团队从arXiv平台精选465篇人工智能领域的前沿论文作为数据源，由专业研究人员对论文中的原理图进行系统性标注。通过构建1500组问答对，数据集不仅捕捉了图表中的视觉要素，更聚焦于科学文献特有的信息检索场景，包括设计原理、实现细节等五大类问题。标注过程中采用边界框标注关键视觉元素，并严格区分可回答与不可回答的问题，确保数据质量。

使用方法

研究者可通过GitHub仓库快速部署MISS-QA评估环境，项目提供完整的依赖配置脚本和预处理流程。使用分为模型推理和精度评估两阶段：首先运行指定脚本生成模型对原理图问题的响应结果，存储于outputs目录；随后调用精度评估脚本进行自动化评分，结果将输出至processed_outputs目录。这种模块化设计支持灵活接入各类多模态模型，其评估协议与人类判断高度一致，确保测评结果的可靠性。

背景与挑战

背景概述

MISS-QA数据集由前沿研究团队于2024年推出，旨在填补多模态基础模型在科学文献图表理解领域的评估空白。作为首个专注于科研论文示意图解析的基准测试，该数据集由465篇arXiv人工智能领域论文中提取的1500组问答对构成，所有数据均经过领域专家严格标注。其核心研究聚焦于解决多模态模型对科学示意图中设计原理、实现细节等深层信息的理解能力，为评估Gemini、Qwen等18种前沿视觉语言模型的认知水平提供了标准化测试平台。该数据集的建立显著推动了科学文献智能解析领域的发展，成为衡量模型跨模态推理能力的重要标尺。

当前挑战

MISS-QA数据集致力于解决科学文献多模态理解中的核心难题：如何准确解析示意图中隐含的专业知识并回答信息检索类问题。主要挑战体现在模型需同时处理视觉元素的几何特征、文本标注的语义信息以及科学语境下的专业逻辑。数据构建过程中，研究团队面临标注一致性难题——不同领域专家对示意图的理解存在主观差异，需通过多轮校验确保答案准确性。此外，科学示意图的抽象性特征（如流程图符号、理论模型图示）要求标注者具备交叉学科知识，这对数据质量的把控提出了更高要求。自动评估协议的开发同样具有挑战性，需在人类评分标准与机器可计算指标间建立可靠映射关系。

常用场景

经典使用场景

在人工智能与多模态学习领域，MISS-QA数据集为评估模型对科学文献中示意图的理解能力提供了标准化测试平台。研究者通过该数据集可系统考察模型在解析设计原理、实验细节等专业信息时的表现，尤其擅长验证模型能否从复杂图表中提取关键要素并生成准确回答。其1500组专家标注的问答对覆盖465篇AI论文，成为衡量多模态模型科学认知能力的黄金基准。

解决学术问题

该数据集有效解决了多模态模型在科学文献理解中的三大核心问题：示意图的语义解析精度、跨模态信息关联能力以及专业领域知识推理深度。通过构建包含设计原理、实验结果等五大场景的评估框架，首次实现了对模型科学信息获取能力的量化分析，为突破现有视觉-语言模型在学术场景的应用瓶颈提供了关键数据支撑。

实际应用

MISS-QA的实际价值体现在学术搜索引擎优化与科研辅助工具开发中。其评估协议可直接应用于改进文献检索系统的多模态理解模块，帮助研究者快速定位图表中的关键信息。部分科技公司已基于该数据集开发智能论文阅读助手，能自动解析示意图中的方法论框架，显著提升科研人员的信息获取效率。

数据集最近研究