SeePhys

github2025-05-27 更新2025-05-28 收录

下载链接：

https://github.com/SeePhys/seephys-project

下载链接

链接失效反馈

官方服务：

资源简介：

SeePhys是一个全谱多模态基准，用于评估不同知识水平下的物理推理能力。它包含2000个经过严格验证的问题，涵盖从中学生到博士资格考试水平的广泛知识范围，涉及7个主要领域的经典和现代物理学。

SeePhys is a full-spectrum multimodal benchmark designed to evaluate physical reasoning capabilities across varying levels of academic knowledge. It comprises 2000 rigorously validated questions spanning a broad knowledge range from middle school level up to doctoral qualifying exam level, covering classical and modern physics across seven major domains.

创建时间：

2025-05-16

原始信息汇总

SeePhys 数据集概述

数据集简介

名称：SeePhys (Vision-Based Physics Reasoning Benchmark)
类型：多模态物理推理基准测试
论文：SeePhys: Does Seeing Help Thinking? -- Benchmarking Vision-Based Physics Reasoning
发布机构：多机构联合研究团队(Sun Yat-sen University, ETH Zurich等)
发布时间：2025年5月

核心特征

数据规模：2,000个经过严格验证的物理问题
知识层级：涵盖从中学到博士资格考试的全谱系物理知识
学科领域：7大物理学主要领域(包含经典和现代物理)
视觉信息：
- 21种专业图表类型(如费曼图、电路图等)
- 两个视觉信息子集(Vision-Essential和Vision-Optional)
- 2,000个纯视觉实例(问题以图片形式呈现)

评估结果

测试模型：28个领先的LLM和MLLM模型
最佳表现：
- LLM: DeepSeek-R1(42.2%准确率)
- MLLM: Gemini-2.5-Pro(54.9%准确率)
关键发现：当前模型最高准确率不超过55%，视觉信息对物理推理有显著影响

数据获取

Huggingface地址：SeePhys/SeePhys
评估工具：基于VLMEvalKit

贡献者

来自中山大学、苏黎世联邦理工学院、华为诺亚方舟实验室和香港大学的研究团队。

引用格式

latex @article{xiang2025seephys, title={SeePhys: Does Seeing Help Thinking? -- Benchmarking Vision-Based Physics Reasoning}, author={Kun Xiang, Heng Li, Terry Jingchen Zhang, Yinya Huang, Zirong Liu, Peixin Qu, Jixi He, Jiaqi Chen, Yu-Jie Yuan, Jianhua Han, Hang Xu, Hanhui Li, Mrinmaya Sachan, Xiaodan Liang}, journal={arXiv preprint arXiv:2505.19099}, year={2025} }

搜集汇总

数据集介绍

构建方式

在物理学教育与认知科学交叉领域，SeePhys数据集通过系统化构建流程实现了多模态物理推理能力的评估框架。研究团队集结了来自中山大学、苏黎世联邦理工学院等机构的跨学科专家，采用分层抽样方法从中学至博士资格考试的7大物理学领域中精选2000道题目。每道题目均经过严格的视觉信息标注流程，由领域专家根据21种专业图表类型（如费曼图、电路图等）进行分类，并区分视觉必需型（Vision-Essential）与视觉辅助型（Vision-Optional）两类样本。为增强数据多样性，团队额外构建了2000个纯视觉版本的问题实例，确保文本信息完全通过图像呈现。

特点

该数据集展现出三个显著特征：知识覆盖的完备性实现了从初中物理到量子力学的前沿跨度，7大学科领域的划分使评估具有精细粒度；视觉信息的结构化设计通过双模态子集揭示了模型对视觉线索的依赖程度，21类专业图表构成多层次的视觉理解挑战；评估维度的创新性体现在同时考察文本推理、视觉解析以及多模态融合能力，基准测试显示当前最先进的MLLMs模型准确率最高仅达54.9%。特别值得注意的是，数据集中视觉非必需图表仍能提升模型性能的发现，为多模态学习机制研究提供了新视角。

使用方法

研究者可通过Hugging Face平台获取数据集标准分割版本，利用官方提供的VLMEvalKit评估工具包进行模型性能测试。评估流程支持两种主要模式：对于学术研究，建议采用完整测试集的五折交叉验证；若参与ICML 2025挑战赛，则需通过Codabench平台提交预测结果。数据使用时应特别注意视觉模态的差异化处理——Vision-Essential类问题要求模型必须解析图像信息，而Vision-Optional类则考察模型自主选择信息源的能力。官方推荐采用思维链（Chain-of-Thought）提示策略，并配套发布包含解题步骤的扩展标注集以供参考。

背景与挑战

背景概述

SeePhys数据集由中山大学、苏黎世联邦理工学院等机构的研究团队于2025年联合推出，旨在构建一个跨知识层次的多模态物理推理基准。该数据集包含2000道经过严格验证的物理问题，覆盖从中学生到博士资格考试的7大物理学领域，并创新性地采用21种专业图表类型（如费曼图和电路图）来评估多模态大模型整合领域知识与视觉理解的能力。作为ICML 2025数学推理研讨会官方挑战赛指定数据集，其通过视觉必需型（Vision-Essential）和视觉补充型（Vision-Optional）双维度设计，首次系统揭示了视觉信息对物理推理的增强机制，为认知科学与AI多模态推理研究提供了重要实证基础。

当前挑战

该数据集主要解决多模态物理推理中的核心挑战：模型在视觉信息依赖性任务中的表现显著滞后，当前最优模型Gemini-2.5-Pro在视觉必需型问题上准确率不足55%。构建过程中面临双重挑战：在领域层面，需平衡7个物理学分支的知识深度与广度，确保从经典力学到量子物理的题目具有专业区分度；在技术实现上，专家团队需精确设计21类专业图表的视觉表征，同时维护文本-图像双模态数据的严格对齐。实验表明，即便是非必需视觉信息也能提升模型表现，这为多模态推理的机制研究提出了新的理论解释需求。

常用场景

经典使用场景

在物理教育领域，SeePhys数据集通过融合视觉元素与物理问题，为研究者提供了一个评估多模态大语言模型物理推理能力的标准平台。该数据集包含2000个涵盖从中学到博士资格考试水平的物理问题，涉及7个主要物理领域，并精心设计了21种图表类型，如费曼图和电路图，以测试模型在视觉辅助下的物理推理能力。

实际应用

该数据集已被应用于ICML 2025数学推理挑战赛，作为评估AI系统物理理解能力的基准。教育科技公司正利用其开发智能辅导系统，通过分析学生对视觉型物理问题的解答模式，提供个性化学习建议。在科研领域，该数据集支撑了多项关于多模态认知机制的研究，推动了教育人工智能的发展。

衍生相关工作

基于SeePhys数据集，研究者开发了DeepSeek-R1等专用物理推理模型，在基准测试中取得领先性能。该数据集还启发了跨学科研究，如ETH Zurich团队将其扩展应用于量子计算教育评估。华为诺亚方舟实验室利用该数据集开发了视觉-语言联合预训练框架，显著提升了模型在STEM领域的多模态理解能力。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集