HiPhO
收藏github2025-09-10 更新2025-09-11 收录
下载链接:
https://github.com/SciYu/HiPhO
下载链接
链接失效反馈资源简介:
HiPhO(高中物理奥林匹克竞赛基准)是第一个专门设计用于评估(M)LLMs在2024-2025年真实世界物理奥林匹克竞赛中物理推理能力的基准。它包含13个奥林匹克竞赛试卷、360个问题,涵盖5个物理领域和4种模态类型,并使用官方评分方案进行答案级和步骤级评分。
HiPhO (High School Physics Olympiad Benchmark) is the first benchmark specifically designed to evaluate the physical reasoning capabilities of (M)LLMs in real-world physics olympiad competitions held between 2024 and 2025. It comprises 13 olympiad exam papers and 360 questions, covering 5 physics domains and 4 modality types, and adopts official scoring schemes for answer-level and step-level grading.
创建时间:
2025-09-09
原始信息汇总
HiPhO 数据集概述
数据集简介
HiPhO(High School Physics Olympiad Benchmark)是首个专门用于评估(多模态)大语言模型在2024–2025年真实高中物理奥林匹克竞赛题目上物理推理能力的基准数据集。
关键特性
- 最新覆盖范围:包含2024–2025年期间国际和地区比赛的13份奥林匹克竞赛试卷。
- 多模态内容:支持四种模态类型,涵盖纯文本到基于图表的问题。
- 专业评估:使用官方评分方案进行答案级和步骤级评分。
- 人类水平对比:将模型得分映射到奖牌等级(金/银/铜),并与人类表现进行比较。
数据集内容
- 13个物理奥林匹克竞赛
- 360个问题
- 分类涵盖:
- 5个物理领域:力学、电磁学、热力学、光学、现代物理
- 4种模态类型:纯文本、文本+插图、文本+变量图、文本+数据图
- 6种答案类型:表达式、数值、多项选择、方程、开放式、不等式
评估方法
- 使用答案级和步骤级评分,与官方评分方案一致
- 以考试分数作为评估指标
- 基于奖牌的对比,使用金、银、铜牌官方阈值
主要结果
- 闭源推理MLLM在基准测试中领先,获得6–12枚金牌(前5名:Gemini-2.5-Pro、Gemini-2.5-Flash、GPT-5、o3、Grok-4)
- 开源MLLM大多处于或低于铜牌水平
- 开源LLM展现出更强的推理能力,通常优于开源MLLM
下载信息
- 数据集和标注:https://huggingface.co/datasets/SciYu/HiPhO
- GitHub仓库:https://github.com/SciYu/HiPhO
- 论文:https://arxiv.org/abs/2509.07894
- 联系邮箱:fangchenyu@link.cuhk.edu.cn
引用格式
bibtex @article{hipho2025, title={HiPhO: How Far Are (M)LLMs from Humans in the Latest High School Physics Olympiad Benchmark?}, author={Yu, Fangchen and Wan, Haiyuan and Cheng, Qianjia and Zhang, Yuchen and Chen, Jiacheng and Han, Fujun and Wu, Yulun and Yao, Junchi and Hu, Ruilizhen and Ding, Ning and Cheng, Yu and Chen, Tao and Bai, Lei and Zhou, Dongzhan and Luo, Yun and Cui, Ganqu and Ye, Peng}, journal={arXiv preprint arXiv:2509.07894}, year={2025} }
AI搜集汇总
数据集介绍

构建方式
在物理教育评估领域,HiPhO数据集的构建采用了系统化的方法,涵盖了2024至2025年间的13场国际和地区性物理奥林匹克竞赛的真实试题。数据收集过程严格遵循官方考试材料,确保题目的权威性和时效性。每道题目均经过多模态分类处理,涵盖纯文本、图示、变量图和数据图四种类型,并依据官方评分标准进行了答案级和步骤级标注,从而形成了包含360道题目的高质量基准数据集。
特点
HiPhO数据集的核心特点在于其全面性和专业性,试题覆盖力学、电磁学、热力学、光学和现代物理五大领域,同时融合了多模态内容,能够有效评估模型在不同视觉推理场景下的表现。该数据集采用官方奖牌阈值(金、银、铜奖)作为性能对比标准,首次实现了机器学习模型与人类选手的跨维度比较,为物理推理能力的研究提供了丰富而严谨的评估框架。
使用方法
使用HiPhO数据集时,研究者可通过Hugging Face平台获取完整的题目资源和标注信息。评估过程需依据官方评分方案对模型输出进行答案级或步骤级判分,并将总分映射至奖牌阈值区间以衡量性能水平。该数据集支持多模态输入处理,要求模型能够解析文本与图像组合问题,适用于闭源与开源大语言模型及多模态模型的基准测试与能力分析。
背景与挑战
背景概述
HiPhO数据集由香港中文大学等研究机构于2025年创建,是首个专门针对国际中学生物理奥林匹克竞赛的多模态推理基准。该数据集涵盖2024至2025年间13项国际与地区级赛事,包含360道涵盖力学、电磁学、热力学等五大物理领域的题目,旨在系统评估大语言模型在复杂物理问题求解中的推理能力。其创新性地融合文本与图示、变量图、数据图四种模态,为人工智能在科学教育领域的应用提供了重要研究基础。
当前挑战
该数据集核心挑战在于解决多模态物理推理问题,要求模型同时处理数学公式推导、物理现象解释和图形数据解析。构建过程中需克服竞赛题目版权获取、多模态数据对齐与标注一致性等难题,特别是对图示中隐含物理关系的精确提取与官方评分标准的数字化转换。当前模型在纯文本问题上表现接近人类水平,但在涉及数据图表解析的题目中仍存在显著性能落差。
常用场景
经典使用场景
在物理教育智能化评估领域,HiPhO数据集作为首个基于国际物理奥林匹克竞赛真题构建的基准测试平台,其经典使用场景集中于系统评估多模态大语言模型在复杂物理问题求解中的综合能力。研究者通过该数据集含有的360道多模态试题,能够精确测量模型在力学、电磁学、热力学等五大物理分支的推理表现,特别是对图文混合问题的解析能力成为区分模型性能的关键指标。
解决学术问题
该数据集有效解决了人工智能领域对物理推理能力量化评估的学术需求,通过提供标准化的评分体系和奖牌阈值对照,使研究者能够客观比较模型与人类选手的差距。其逐步评分机制揭示了模型在符号运算、几何推导和数据解读等核心环节的薄弱点,为提升机器物理认知能力提供了诊断依据,推动了认知科学与人工智能的跨学科融合。
衍生相关工作
该数据集已催生多项前沿研究,包括基于奖牌阈值分析的模型能力分级框架、针对图文混合问题的多模态推理架构改进,以及物理符号系统的神经集成方法。后续研究进一步扩展了竞赛试题的时空覆盖范围,构建了动态物理场景的时序推理数据集,并衍生出专注于物理概念迁移学习的评估基准,形成了层次化的物理AI评估体系。
以上内容由AI搜集并总结生成



