five

HIPHO (High School Physics Olympiad)

收藏
arXiv2025-09-10 更新2025-11-24 收录
下载链接:
https://hf-mirror.com/datasets/SciYu/HiPhO
下载链接
链接失效反馈
官方服务:
资源简介:
HIPHO是一个针对高中物理奥林匹克竞赛的基准测试数据集,包含了2024年至2025年的13个奥林匹克竞赛试卷,涵盖了国际和区域性的竞赛。数据集包含了混合模式的问题,从纯文本到基于图表的问题都有。HIPHO采用官方评分标准对答案和步骤进行细粒度评分,完全与人类评分者对齐,以确保高质量和特定领域的评估。HIPHO旨在通过将模型分数映射到官方奖牌阈值,从而能够直接与人类参赛者进行比较。

HIPHO is a benchmark dataset for high school physics Olympiads, consisting of 13 Olympiad examination papers from 2024 to 2025 covering both international and regional competitions. The dataset includes mixed-format questions ranging from plain-text to graph-based problems. HIPHO adopts official scoring rubrics to conduct fine-grained scoring of answers and solution steps, and is fully aligned with human raters to ensure high-quality, domain-specific assessment. HIPHO aims to enable direct comparison with human contestants by mapping model scores to official medal thresholds.
提供机构:
上海人工智能实验室(Shanghai AI Laboratory)
创建时间:
2025-09-10
搜集汇总
数据集介绍
main_image_url
构建方式
在物理推理能力评估领域,HIPHO数据集通过系统化流程构建而成。研究团队从2024-2025年举办的13个国际与区域性物理奥林匹克竞赛中收集官方试题,涵盖力学、电磁学、热力学、光学和现代物理五大领域。采用专业的数据提取流程,将PDF格式的原始试题转换为结构化标记语言,并通过人工验证确保每个问题与答案对的准确性。特别针对含有多步骤推理的题目,依据官方评分标准构建了细粒度的步骤级评分体系,使数据质量达到竞赛级标准。
特点
该数据集展现出三个显著特征:时效性方面,收录了最新两年的奥赛试题,有效避免了传统数据集的陈旧性问题;多模态维度,问题形式从纯文本到含示意图、变量图和数据图的混合模态全覆盖,真实还原物理竞赛中的视觉推理场景;评估体系创新性地结合答案级和步骤级双重评分机制,并首次引入与人类选手直接对比的奖牌分数线标准。这种设计使得数据集能够全面衡量模型在复杂物理问题中的符号推导、数值计算和图示理解能力。
使用方法
使用该数据集时,研究者可通过标准化的推理提示模板引导模型生成解题过程。评估阶段采用两阶段评分策略:首先进行答案级粗粒度匹配,利用数学验证器检查最终答案的正确性;随后启动步骤级细粒度评估,由强判断模型根据官方评分标准对解题步骤逐项打分。最终成绩取两种评分方式的较高值,既认可直接得出正确答案的能力,也奖励部分正确的推理过程。这种评估方式与人类裁判的判分逻辑高度一致,为模型物理推理能力的精准度量提供了可靠框架。
背景与挑战
背景概述
HIPHO数据集由上海人工智能实验室联合多所高校于2025年发布,旨在填补物理推理评估领域的空白。该数据集聚焦高中物理奥林匹克竞赛,汇集了2024至2025年间13场国际与区域级赛事的最新试题,涵盖力学、电磁学、热力学、光学和现代物理五大领域。其创新性在于首次实现了对多模态物理试题的系统性覆盖,并通过官方评分标准进行细粒度评估,为衡量大型语言模型与多模态模型的物理推理能力提供了严谨基准。该数据集通过引入人类选手成绩对比机制,推动了人工智能在复杂科学推理任务中的可解释性研究。
当前挑战
在领域问题层面,HIPHO需解决物理奥林匹克竞赛特有的多模态推理挑战:试题融合文本描述与复杂图表,要求模型同时具备公式推导、变量关联分析和数据图表解读能力。构建过程中面临三大难题:一是确保数据时效性,需持续追踪全球赛事并处理多语言试题的标准化转换;二是建立专业评估体系,需将官方评分方案转化为可计算的步骤级评分规则;三是实现公平对比,需协调人类选手成绩数据缺失与模型能力局限性之间的矛盾,例如实验性试题因模型缺乏具身交互能力而被迫排除。
常用场景
经典使用场景
在物理推理能力评估领域,HIPHO数据集作为首个专注于高中物理奥林匹克竞赛的基准测试工具,其经典应用场景体现在系统化评估多模态大语言模型的物理问题解决能力。该数据集通过整合2024至2025年最新国际与区域级物理奥赛试题,覆盖从纯文本到图表混合的多模态题型,为研究者提供了模拟真实竞赛环境的测试平台。其创新性的分步评分机制与官方阅卷标准对齐,使得模型在力学、电磁学等核心物理领域的推理链条完整性得以精确量化。
解决学术问题
HIPHO有效解决了现有物理数据集的四大核心局限:其时效性覆盖了最新奥赛题目,弥补了传统数据集更新滞后的缺陷;多模态内容设计突破了纯文本评估的框架,首次系统整合图表推理任务;基于官方评分标准的细粒度评估机制,纠正了传统答案级评估对中间推理过程忽视的问题;通过引入考试分数与奖牌阈值的对标,实现了模型与人类参赛者的直接性能比较,为衡量人工智能在复杂物理推理任务中的真实水平提供了科学标尺。
衍生相关工作
HIPHO的发布催生了多模态物理推理研究的新范式,其衍生工作主要集中在三大方向:基于该基准开发的Intern-S1等开源模型在力学领域实现奖牌级突破,推动了专用物理推理架构的发展;以GLM-4.5V为代表的视觉语言模型针对图表解析任务进行针对性优化,显著提升了变量图示与数据图像的解读能力;同时,该数据集启发的评估方法论被扩展至数学奥赛等学科,促进了跨学科复杂推理评估标准的统一化进程。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作