Multi-Physics

Name: Multi-Physics
Creator: 香港中文大学（深圳）科学与工程学院
Published: 2025-09-19 18:18:48
License: 暂无描述

arXiv2025-09-19 更新2025-11-21 收录

下载链接：

https://github.com/luozhongze/Multi-Physics

下载链接

链接失效反馈

官方服务：

资源简介：

Multi-Physics是一个针对中国物理问题的多模态语言模型（MLLMs）推理的综合基准数据集，由香港中文大学（深圳）科学与工程学院的研究团队构建。该数据集包含了1,412个与图像关联的多选题，涵盖11个高中物理学科，并分为5个难度等级。数据集通过双评价框架评估了20种不同的MLLMs，分析了最终答案的准确性和思考过程的完整性。此外，数据集还系统地研究了难度等级和视觉信息对MLLMs推理的影响。

提供机构：

香港中文大学（深圳）科学与工程学院

创建时间：

2025-09-19

搜集汇总

数据集介绍

构建方式

在物理学科多模态推理评估资源相对匮乏的背景下，Multi-Physics数据集通过系统化流程构建而成。研究团队从公开的高中物理试卷中收集了超过2000份PDF格式原始资料，利用Mathpix API进行光学字符识别，将试题转换为结构化文本并提取关联图像。经过人工校验与格式标准化处理，筛选出包含图像及解析内容的多项选择题，最终形成涵盖11个物理分支的1412道题目。每道题目均通过GPT-4.1辅助学科分类，并由物理专业标注者复核，同时采用五级难度评估体系确保数据质量。

使用方法

基于该数据集的双重评估范式，研究者可系统检验多模态大语言模型的物理推理能力。在实验设置中，模型需分别处理含图像与纯文本两种输入模式，通过对比分析揭示视觉信息的贡献度。评估体系包含答案匹配度计算与思维链逐步验证：前者采用精确匹配与子串匹配相结合的评分策略，后者借助Gemini-2.5-Flash对推理步骤进行正确性判定。这种设计使得研究者不仅能获取模型最终性能指标，还能深入解析其物理概念理解与逻辑推演过程中的薄弱环节。

背景与挑战

背景概述

随着多模态大语言模型在科学推理领域的快速发展，现有评估基准在专业物理学科中的局限性日益凸显。Multi-Physics数据集由香港中文大学（深圳）研究团队于2025年创建，聚焦中文多学科物理问题求解，涵盖11个高中物理细分领域的1412道图像关联选择题。该数据集通过构建五级难度体系和双维度评估框架，系统检验模型在视觉信息融合与思维链推理中的表现，为多模态模型的科学认知能力评估提供了重要基准。

当前挑战

在领域问题层面，该数据集致力于解决多模态模型在跨学科物理推理中的三大挑战：细粒度学科覆盖不足导致的概念理解偏差，思维链过程缺失引发的逻辑断裂，以及视觉信息作用机制不明确造成的多模态融合低效。构建过程中面临数据采集标准化难题，需通过光学字符识别技术处理逾2000份中文物理试卷，并建立人工与模型协同的双阶段标注机制，确保11个学科分类与五级难度评估的准确性与一致性。

常用场景

经典使用场景

在物理教育智能化评估领域，Multi-Physics数据集通过涵盖11个高中物理学科的1412道图像关联选择题，为多模态大语言模型提供了系统性的推理能力测试平台。该数据集通过五个难度等级的划分和链式思维评估框架，能够精准衡量模型在力学、电磁学等专业领域的多模态理解能力，尤其擅长检验模型结合图像信息进行物理公式推导与空间关系分析的复合能力。

解决学术问题

该数据集有效解决了多模态模型在专业科学领域存在的三大评估缺陷：针对现有基准缺乏细粒度学科覆盖的问题，通过11个物理学科的分类体系构建了立体化知识图谱；针对推理过程黑箱化难题，创新性地引入链式思维步进评估机制，使模型逻辑漏洞可追溯；针对视觉信息作用量化不足的局限，通过图像输入模式的对照实验揭示了多模态融合中的关键影响因素。

实际应用

在实际教学场景中，该数据集可作为智能辅导系统的核心评估工具，帮助教育科技企业精准诊断AI助教的物理知识盲区。其构建的难度渐进式题库能为自适应学习系统提供训练样本，而中英文双模态的特性使其在跨语言教育平台中具有独特价值，特别是在促进物理概念可视化教学方面展现出显著优势。

数据集最近研究