SCI-Reason
收藏arXiv2025-04-09 更新2025-04-11 收录
下载链接:
http://arxiv.org/abs/2504.06637v1
下载链接
链接失效反馈官方服务:
资源简介:
SCI-Reason是一个针对学术领域中复杂多模态推理的专门数据集,由北京邮电大学和北京大学的研究团队共同创建。该数据集包含从PubMed收集的12066张图像和12626个问题答案对,分为训练集、验证集和测试集。每个问题答案对还包含一个精确高效的推理链,用于指导模型训练和错误分析。数据集旨在测试和提升大型多模态模型在学术领域处理复杂图像的推理能力。
SCI-Reason is a specialized dataset for complex multimodal reasoning in the academic domain, jointly created by research teams from Beijing University of Posts and Telecommunications and Peking University. This dataset contains 12,066 images collected from PubMed and 12,626 question-answer pairs, which are divided into training, validation and test sets. Each question-answer pair also includes a precise and efficient reasoning chain for guiding model training and error analysis. The dataset aims to test and enhance the reasoning capabilities of large multimodal models when processing complex images in the academic field.
提供机构:
北京邮电大学, 北京大学
创建时间:
2025-04-09
搜集汇总
数据集介绍

构建方式
SCI-Reason数据集的构建过程体现了严谨的学术规范与创新方法论的结合。研究团队从PubMed Central开放获取库中筛选出12,066幅具有多子图结构的学术图像,通过自动化文本解析引擎建立图像与对应方法论描述、实验结论的精确对齐。采用双阶段知识提炼方法生成问题-答案对:首先利用大语言模型对图像描述进行语义蒸馏,随后通过语义角色标注技术策略性屏蔽领域特定实体,形成需要多模态推理的填空题。每个问题对均配备由蒙特卡洛树搜索算法生成的推理链,该算法通过选择-扩展-模拟-回溯四阶段迭代,确保推理路径的逻辑严谨性和知识覆盖完整性。
特点
该数据集在学术多模态推理领域具有三个显著特征:领域专业性方面,所有素材均来自同行评审期刊,涵盖统计图表、显微图像、概念示意图等四类学术可视化形式,其中73.2%图像包含3-7个语义关联的子图;推理复杂性体现在问题设计的五维体系,包括专业实体定位、跨子图角色推理等学术场景核心能力,平均每个问题需要4.28步推理步骤;评估系统性则通过精确匹配率、标准化编辑距离和语义相似度三维度指标,对数值型、专业术语和描述性文本等多样答案形式进行多角度验证。
使用方法
使用该数据集时建议采用分层验证策略:基础层面可通过微调开源模型如Qwen2-VL-7B验证训练集效果,实验显示其准确率可提升12个百分点;进阶评估应结合思维链提示技术测试模型在验证集的表现,最优模型Claude-3.7-Sonnet的推理准确率达55.19%;深度分析推荐采用错误归因框架,将模型失误分解为知识缺陷、逻辑错误等四类原因。跨领域验证表明,经该数据集优化的模型在MMMU基准的科学类任务上表现提升2.7%,证实其具有知识迁移价值。
背景与挑战
背景概述
SCI-Reason数据集由北京邮电大学和北京大学的研究团队于2025年联合推出,旨在填补多模态大模型在学术领域复杂图像推理能力评估方面的空白。该数据集从PubMed学术数据库中精选12,066张多面板学术图像和12,626个问答对,涵盖统计图表、显微图像、概念示意图等多种学术可视化形式。其创新性体现在采用蒙特卡洛树搜索算法生成可验证的思维链标注,系统化定义了专业实体定位、跨子图角色推理等五大核心学术推理能力。作为首个面向真实学术场景的多模态推理基准,SCI-Reason通过细粒度的知识引导构建范式,为评估模型在生物医学等专业领域的多层级推理能力提供了标准化测试平台。
当前挑战
该数据集主要面临双重挑战:在领域问题层面,现有模型对学术图像的多步推理准确率最高仅达55.19%,暴露出知识缺失(37.1%)和逻辑错误(29.5%)等核心瓶颈,凸显复杂学术场景中跨模态知识融合与结构化视觉解析的困难。在构建技术层面,需解决多面板图像语义关联建模、专业术语的精确对齐以及蒙特卡洛树搜索生成的推理链在学术严谨性与计算效率间的平衡问题。特别地,确保12,626个问答对中视觉证据与文本结论的严格可验证性,需要设计动态难度感知采样机制来避免传统方法对简单推理模式的偏好。
常用场景
经典使用场景
SCI-Reason数据集在学术领域的复杂多模态推理任务中展现了其经典应用价值。该数据集通过从PubMed中提取的真实复杂图像和问题-答案对,为研究者提供了一个系统评估大型多模态模型在专业学术场景下推理能力的平台。其独特的多面板图像结构和知识引导的问答设计,使得模型需要在跨子图关系推理、专业实体定位、因果机制分析等多个维度展现深层次的理解能力。
衍生相关工作
围绕SCI-Reason衍生的经典工作主要集中在三个方面:基于蒙特卡洛树搜索的推理链优化方法、面向学术多模态任务的微调策略,以及新型评估框架的开发。该数据集推动了如Qwen2-VL-7B等模型的改进研究,并启发了一系列关于复杂学术场景下多模态对齐、知识引导推理的后续工作。其提出的五类核心推理能力分类体系,也为后续学术多模态基准构建提供了重要参考。
数据集最近研究
最新研究方向
SCI-Reason数据集在复杂多模态推理领域的最新研究方向主要集中在提升大型多模态模型(LMMs)在学术场景中的深度推理能力。该数据集通过构建包含12,626个问题-答案对及12,066幅学术图像的标注体系,首次实现了从专业实体定位到方法论技术推理的五维能力评估框架。当前研究热点包括蒙特卡洛树搜索(MCTS)驱动的可验证推理链生成、跨子图角色推理的细粒度对齐,以及多模态时序推理中的因果机制建模。实验表明,即使顶尖模型Claude-3.7-Sonnet在该数据集上的准确率仅达55.19%,其错误分析揭示了现有模型在知识整合与多步逻辑推理方面的显著缺陷,这为开发具有真正学术理解能力的下一代多模态系统提供了关键基准。该数据集在增强模型跨领域泛化能力方面的表现,尤其推动了学术图像理解在科研诚信检测等实际应用中的发展。
相关研究论文
- 1SCI-Reason: A Dataset with Chain-of-Thought Rationales for Complex Multimodal Reasoning in Academic Areas北京邮电大学, 北京大学 · 2025年
以上内容由遇见数据集搜集并总结生成



