Physics-Bench

github2025-02-24 更新2025-02-21 收录

下载链接：

https://github.com/luozhongze/Physics-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

Physics-Bench是一个用于评估多模态LLMs在中文物理问题中的综合物理推理能力的基准数据集。它包含了1412个问题，涵盖了线性运动、力学相互作用、牛顿运动定律、曲线运动、万有引力定律与空间探索、机械能、静电场、恒定电流、磁场、电磁感应和交流电等多个物理主题。

Physics-Bench is a benchmark dataset developed to evaluate the comprehensive physical reasoning capabilities of multimodal large language models (LLMs) when solving Chinese-language physics problems. It contains 1,412 questions spanning a wide range of physics topics, including linear motion, mechanical interactions, Newton's laws of motion, curvilinear motion, the law of universal gravitation and space exploration, mechanical energy, electrostatic field, steady current, magnetic field, electromagnetic induction, and alternating current.

创建时间：

2025-02-17

原始信息汇总

Physics-Bench 数据集概述

数据集基本信息

数据集名称：Physics-Bench
数据集描述：Physics-Bench是一个针对中文物理问题的综合物理推理评估数据集，用于评估多模态大型语言模型（LLM）的性能。
数据集链接：Physics-Bench

数据集统计信息

问题类型统计：
- 线性运动：82题
- 力学中的相互作用：155题
- 牛顿运动定律：110题
- 曲线运动：164题
- 万有引力定律与太空探索：79题
- 机械能：108题
- 静电场：173题
- 稳恒电流：122题
- 磁场：136题
- 电磁感应：127题
- 交流电：156题
- 总计：1412题
平均问题长度：206.75
平均分析长度：239.74

与其他基准数据集的比较

数据集规模：1412题
平均问题长度：206.75
平均分析长度：239.74
是否支持解释：是
问题类型：多项选择题（MC）
语言：中文

评估结果

闭源大型模型：包括yi-vision-v2、ChatGPT-4o-latest等模型的整体表现和各个问题类型的表现。
开源大型模型：GLM-4V-9B模型的整体表现和各个问题类型的表现。

使用方法

模型API调用：提供命令行调用不同模型API的方法，并保存结果。
准确率计算：提供命令行计算生成的答案准确率的方法。
其他模型部署：提供在./Models目录下部署其他模型的方法。

致谢

数据集由众多志愿者共同完成，特别感谢他们的辛勤工作。

搜集汇总

数据集介绍

构建方式

Physics-Bench数据集的构建以物理学科问题为核心，涵盖线性运动、力学交互作用、牛顿运动定律等多个物理学分支，共计1412道题目。数据集依据问题类型进行分类，并为每道题目配备详尽的分析解答，以适应不同模型对于物理问题理解和推理能力的评估。

使用方法

使用Physics-Bench数据集，用户首先需要调用相应的模型API生成答案，并可通过脚本计算准确率。数据集支持不同模型的部署与评估，用户可根据需要将模型文件存放在指定目录下，并按照指导配置环境进行模型评估。

背景与挑战

背景概述

Physics-Bench 数据集是一项针对中文物理问题的综合评估，旨在评价多模态大型语言模型在物理推理任务上的表现。该数据集由卢中泽等人创建于2023年，包含了1412个物理问题，覆盖了线性运动、力学交互、牛顿运动定律等多个物理学分支。Physics-Bench 数据集的构建，为评估模型在解决复杂物理问题方面的能力提供了重要基准，对促进多模态语言模型在科学教育领域的应用具有重要意义。

当前挑战

Physics-Bench 数据集在构建过程中面临的挑战主要包括：1）物理问题的多样性和复杂性，要求模型具备深入的物理知识和推理能力；2）数据集的构建需要大量专业人士的参与，确保问题质量和答案的准确性；3）在评估模型表现时，需要设计有效的评价指标和对比实验，以公正地衡量不同模型在物理问题解决上的能力。

常用场景

经典使用场景

Physics-Bench数据集作为物理问题推理的评估标准，其经典使用场景在于为大型多模态语言模型提供包含丰富物理问题类型和解答分析的中文题目，以评估模型在解决物理问题时的表现和准确性。

解决学术问题

该数据集解决了学术研究中对于多模态语言模型在物理问题推理能力评估的缺乏统一标准的问题，为研究人员提供了一个全面、多样化的物理问题集，有助于推动相关领域的研究进展，提升模型在物理领域的应用能力。

实际应用

在实际应用中，Physics-Bench数据集可用于教育领域，辅助物理教学，为学生提供自动化的物理问题生成与解答服务，同时也可用于智能辅导系统中，以增强学习体验和效果。

数据集最近研究