five

MME-SCI

收藏
arXiv2025-08-19 更新2025-11-26 收录
下载链接:
https://hf-mirror.com/datasets/JCruan/MME-SCI
下载链接
链接失效反馈
官方服务:
资源简介:
MME-SCI是一个全面的科学领域多模态大型语言模型评估基准。该数据集由1019个高质量的问题-答案对组成,涉及3种不同的评估模式。这些对涵盖数学、物理、化学和生物学四个学科,支持中文、英文、法语、西班牙语和日语五种语言。MME-SCI旨在系统地评估多模态大型语言模型在不同语言环境和知识领域的推理能力。

MME-SCI is a comprehensive multi-modal large language model evaluation benchmark in the scientific domain. This dataset consists of 1,019 high-quality question-answer pairs, covering three distinct evaluation modes. These pairs span four disciplines: mathematics, physics, chemistry and biology, and support five languages: Chinese, English, French, Spanish and Japanese. MME-SCI aims to systematically evaluate the reasoning capabilities of multi-modal large language models across different linguistic contexts and knowledge domains.
提供机构:
上海交通大学, 字节跳动
创建时间:
2025-08-19
搜集汇总
数据集介绍
main_image_url
构建方式
在科学教育评估领域,MME-SCI数据集的构建遵循严谨的多阶段流程。研究团队从中国高中理科模拟试卷中筛选出高难度题目,通过专业标注人员结合GPT-4o与OCR工具进行数据数字化处理,形成包含805道需图像理解的题目和214道纯文本题目的中文基础数据集。随后通过专业翻译生成英语、法语、西班牙语和日语版本,最终经由三位评审员交叉验证确保数据质量,整个构建过程累计投入约300人日的工作量。
特点
该数据集具备三大核心特征:其多语言支持覆盖中文、英语、法语、西班牙语和日语五种语言,能系统评估模型在跨语言科学场景中的推理能力;全模态设计包含纯文本、纯图像和图文混合三种输入模式,全面检验多模态大语言模型在不同情境下的理解能力;细粒度知识标注体系涵盖数学、物理、化学和生物四个学科的63个知识点,例如数学领域的“三角函数与解三角形”和生物领域的“植物生命活动调节”,为模型能力诊断提供精准参照。
使用方法
研究人员可通过三种模态输入方式对模型进行系统性评估:纯文本模式侧重语言理解能力测试,纯图像模式考察视觉语义解析能力,图文混合模式则评估多模态信息融合能力。该数据集支持单选、多选和填空三种题型,配合自动化评分框架可实现高效批量测试。利用其多语言和细粒度知识标注特性,研究者不仅能获取整体性能指标,还能深入分析模型在特定语言环境、知识领域和模态处理中的薄弱环节,为模型优化提供定向指导。
背景与挑战
背景概述
MME-SCI作为多模态大语言模型科学评估基准,由上海交通大学与字节跳动团队于2025年联合推出。该数据集针对当前科学领域评估体系存在的三大核心缺陷——多语言场景推理能力评估不足、模态覆盖不完整及知识粒度标注缺失——系统构建了涵盖数学、物理、化学、生物四大学科的1019道高质量题目。通过支持中英法西日五类语言与纯文本、纯图像、图文混合三种模态的评估框架,该基准有效突破了现有评测体系性能饱和的瓶颈,为推进多模态模型的科学推理与跨模态理解能力提供了关键支撑。
当前挑战
在领域问题层面,MME-SCI直面多模态模型在跨语言科学推理中的核心难点:模型需在五种语言环境中保持知识表征的一致性,同时应对纯图像模态下的视觉语义解析挑战。构建过程中,团队需攻克三大技术壁垒:通过人工筛选与多轮校验确保题目难度与质量,利用多语言转换技术维持科学概念的精确传递,并建立涵盖63个细粒度知识点的标注体系以支撑精准的性能诊断。实验表明,顶尖模型在纯图像模态下的平均准确率仅为41.32%,显著揭示了现有模型在跨语言推理与模态适应方面的深层缺陷。
常用场景
经典使用场景
在科学教育领域,MME-SCI数据集被广泛应用于评估多模态大语言模型在复杂学科中的推理能力。该数据集通过涵盖数学、物理、化学和生物四大学科的1019道高质量题目,结合纯文本、纯图像和图文混合三种模态输入方式,系统检验模型对科学概念的多维度理解。其多语言特性支持中英法西日五种语言的平行测试,为跨语言科学推理研究提供了标准化评估框架,尤其适用于检验模型在脱离特定语言依赖时的本质推理能力。
解决学术问题
该数据集有效解决了现有科学评估基准在三个维度的局限性:通过多语言场景设计突破模型对单一语种的依赖,验证其真正的科学推理能力;借助全模态覆盖机制系统评估模型在纯视觉、纯文本及混合模态下的鲁棒性;利用63个细粒度知识点的标注体系,精准定位模型在特定学科领域的薄弱环节。这些设计使得研究者能够从语言一致性、模态适应性和知识体系完备性等角度,深度诊断多模态模型的认知边界。
衍生相关工作
基于MME-SCI的评估范式,学界衍生出系列创新研究。例如通过其细粒度知识点标注开发的诊断性增强训练方法,显著提升了模型在电磁学、有机化学等薄弱领域的表现;借鉴其多语言一致性评估思路构建的跨语言推理对齐框架,有效改善了模型在非英语场景下的科学问题求解能力;更有研究结合该基准的模态分析结论,提出了视觉语义解析与符号推理协同优化的新型模型架构,推动多模态推理技术向更深层次发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作