PhysReason

Name: PhysReason
Creator: 西安交通大学
Published: 2025-02-18 01:24:14
License: 暂无描述

arXiv2025-02-18 更新2025-02-19 收录

下载链接：

https://dxzxy12138.github.io/PhysReason/

下载链接

链接失效反馈

官方服务：

资源简介：

PhysReason是一个包含1200个问题的综合基准数据集，由西安交通大学创建，旨在评估大型语言模型在物理推理方面的能力。该数据集涵盖了25%的知识性问题（基于知识）和75%的推理性问题（基于推理），推理性问题进一步分为容易、中等和困难三个层次。PhysReason的问题平均需要8.1个解决步骤，困难问题需要多达15.6个步骤，超过了现有的物理基准数据集。数据集的多模态设计使其81%的问题包含图表，以评估模型在理解和应用视觉和文本信息方面的能力。

PhysReason is a comprehensive benchmark dataset containing 1200 questions, developed by Xi'an Jiaotong University, which aims to evaluate the physical reasoning capabilities of large language models. This dataset includes 25% knowledge-based questions and 75% reasoning-based questions, with the reasoning-based ones further categorized into three difficulty levels: easy, medium, and hard. On average, each question in PhysReason requires 8.1 reasoning steps, while the hard questions demand up to 15.6 steps, which exceeds the step count of existing physical benchmark datasets. Featuring a multimodal design, 81% of its questions incorporate diagrams to assess the model's ability to understand and apply both visual and textual information.

提供机构：

西安交通大学

创建时间：

2025-02-18

原始信息汇总

PhysReason数据集概述

数据集简介

PhysReason是一个面向物理推理的全面基准数据集。该数据集包含1200个涵盖多个领域的物理问题，旨在评估模型在物理知识应用和推理方面的能力。

关键特性

问题数量：1200个物理问题
问题类型：25%基于知识，75%基于推理
定理数量：147个物理定理
带图问题：81%的问题包含 diagram

数据收集过程

获取方式：从全球大学入学考试和竞赛中收集
标准化：使用MinerU框架
翻译：两阶段过程，专家验证
搜索预防：排除易于搜索的问题
难度分类：基于解决时间和定理复杂性

与现有基准对比

<table> <tr> <th>基准</th> <th>多模态</th> <th>大小</th> <th>知识</th> <th>问题类型</th> <th>平均时间</th> <th>逐步解决</th> <th>平均时间</th> <th>平均步骤</th> </tr> <tr> <td>JEEBench</td> <td>❌</td> <td>123</td> <td>CEE</td> <td>OE,MC</td> <td>169.7</td> <td>-</td> <td>-</td> <td>-</td> </tr> <tr> <td>MMLU-Pro</td> <td>❌</td> <td>1299</td> <td>COL</td> <td>MC</td> <td>52.1</td> <td>-</td> <td>-</td> <td>-</td> </tr> <tr> <td>GPQA</td> <td>❌</td> <td>227</td> <td>PH.D.</td> <td>OE</td> <td>111.4</td> <td>❌</td> <td>197.2</td> <td>3.6</td> </tr> <tr> <td>SciEval</td> <td>❌</td> <td>1657</td> <td>-</td> <td>OE,MC</td> <td>154.5</td> <td>-</td> <td>-</td> <td>-</td> </tr> <tr> <td>SciBench</td> <td>✅</td> <td>295</td> <td>COL</td> <td>OE</td> <td>80.5</td> <td>❌</td> <td>315.9</td> <td>2.8</td> </tr> <tr> <td>MMMU</td> <td>✅</td> <td>443</td> <td>COL</td> <td>OE,MC</td> <td>53.8</td> <td>-</td> <td>-</td> <td>-</td> </tr> <tr> <td>ScienceQA</td> <td>✅</td> <td>617</td> <td>K1-K12</td> <td>MC</td> <td>13.3</td> <td>❌</td> <td>63.0</td> <td>2.4</td> </tr> <tr> <td>OlympiadBench</td> <td>✅</td> <td>2334</td> <td>COMP</td> <td>OE</td> <td>222.0</td> <td>❌</td> <td>199.8</td> <td>3.7</td> </tr> <tr> <td>EMMA</td> <td>✅</td> <td>156</td> <td>-</td> <td>MC</td> <td>109.5</td> <td>-</td> <td>-</td> <td>-</td> </tr> <tr> <td>Ours-Knowledge</td> <td>✅</td> <td>300</td> <td>CEE+COMP</td> <td>OE</td> <td>163.7</td> <td>✅</td> <td>196.5</td> <td>3.3</td> </tr> <tr> <td>Ours-Easy</td> <td>✅</td> <td>300</td> <td>CEE+COMP</td> <td>OE</td> <td>171.2</td> <td>✅</td> <td>241.5</td> <td>5.0</td> </tr> <tr> <td>Ours-Medium</td> <td>✅</td> <td>300</td> <td>CEE+COMP</td> <td>OE</td> <td>229.2</td> <td>✅</td> <td>391.3</td> <td>8.4</td> </tr> <tr> <td>Ours-Hard</td> <td>✅</td> <td>300</td> <td>CEE+COMP</td> <td>OE</td> <td>340.9</td> <td>✅</td> <td>936.1</td> <td>15.6</td> </tr> <tr style="background-color: #f8f9fa;"> <td>Ours-Full</td> <td>✅</td> <td>1200</td> <td>CEE+COMP</td> <td>OE</td> <td>226.3</td> <td>✅</td> <td>441.3</td> <td>8.1</td> </tr> </table>

评估框架

PSAS-A（答案级别评估）：基于子问题答案进行评估，从模型的推理过程中提取答案，验证语义一致性，并根据解决方案步骤的长度为不同子问题加权计算分数。
PSAS-S（步骤级别评估）：提供详细的逐步评估，通过四个阶段：数据提取、评分、首次错误步骤检测和错误分析，识别模型首次偏离正确推理路径的位置并分类错误类型。

实验结果

<table> <tr> <th>模型</th> <th>输入</th> <th>知识</th> <th>简单</th> <th>中等</th> <th>困难</th> <th>平均</th> </tr> <tr> <td colspan="7" style="background-color: #f8f9fa; font-weight: bold;">非O-like模型</td> </tr> <tr> <td>Qwen2VL-72B</td> <td>Q, I</td> <td>41.92/62.47</td> <td>24.04/45.26</td> <td>15.97/36.13</td> <td>4.83/24.23</td> <td>16.96/42.88</td> </tr> <tr> <td>InternVL2.5-78B</td> <td>Q, I</td> <td>28.34/64.71</td> <td>24.16/50.69</td> <td>17.72/38.56</td> <td>9.71/25.95</td> <td>19.98/45.89</td> </tr> <tr> <td>GPT-4o</td> <td>Q, I</td> <td>50.71/65.82</td> <td>33.87/51.98</td> <td>22.73/42.36</td> <td>11.03/24.71</td> <td>29.58/47.23</td> </tr> <tr> <td>Deepseek-V3-671B</td> <td>Q, IC</td> <td>55.86/66.14</td> <td>40.06/52.77</td> <td>26.63/44.02</td> <td>13.73/26.87</td> <td>34.07/48.42</td> </tr> <tr> <td>Claude-3.5-Sonnet</td> <td>Q, I</td> <td>54.14/66.45</td> <td>41.35/55.85</td> <td>28.14/44.86</td> <td>15.11/28.51</td> <td>34.69/49.88</td> </tr> <tr> <td>Gemini-2.0-Flash</td> <td>Q, I</td> <td>65.08/75.04</td> <td>54.84/68.60</td> <td>39.79/55.67</td> <td>21.99/38.39</td> <td>45.20/60.40</td> </tr> <tr> <td>Gemini-2.0-Pro</td> <td>Q, I</td> <td>67.99/79.01</td> <td>55.43/71.47</td> <td>44.29/57.74</td> <td>23.81/42.66</td> <td>47.88/62.74</td> </tr> <tr> <td colspan="7" style="background-color: #f8f9fa; font-weight: bold;">O-like模型</td> </tr> <tr> <td>o1-mini</td> <td>Q, IC</td> <td>53.90/65.74</td> <td>35.21/52.26</td> <td>22.24/40.19</td> <td>10.61/26.80</td> <td>30.49/47.18</td> </tr> <tr> <td>QvQ-72B</td> <td>Q, I</td> <td>62.44/70.92</td> <td>53.74/64.65</td> <td>28.18/54.88</td> <td>14.30/36.47</td> <td>32.67/57.66</td> </tr> </table>

搜集汇总

数据集介绍

构建方式

PhysReason 数据集的构建过程包括五个关键阶段：获取、标准化、翻译、防止搜索和难度分类。首先，我们从全球大学入学考试、相关模拟测试和国际物理竞赛中收集公共物理问题。然后，使用 MinerU 框架解析 PDF 内容，并进行严格的去重、过滤和格式化。接下来，进行两阶段翻译，并由具有物理专业知识的博士生验证翻译的准确性和专业性。为防止数据泄露，排除了可以通过五分钟谷歌搜索找到答案的问题。最后，根据学生解决问题的平均时间和应用的理论，将问题分为知识型和推理型，后者再细分为三个难度等级。

特点

PhysReason 数据集的特点包括：1. 分层难度：包含 25% 的知识型问题和 75% 的推理型问题，推理型问题分为简单、中等和困难三个等级。2. 复杂推理：每个问题的解决方案平均有 8.1 个步骤，困难问题需要 15.6 个步骤，超过了当前物理基准通常只有 3-4 个步骤的情况。3. 多模态设计：81% 的问题包括图表，评估模型理解视觉和文本信息的能力。

使用方法

使用 PhysReason 数据集的方法包括：1. 物理解答自动评分框架 (PSAS)，包括答案级和步骤级评估方法。2. PSAS-A 通过答案比较进行高效评估，而 PSAS-S 通过逐步推理验证进行综合分析。3. 可以通过 PSAS-S 框架识别和分析推理过程中的错误，从而提高模型的推理能力。

背景与挑战

背景概述

PhysReason数据集的创建旨在评估大型语言模型（LLMs）在物理推理方面的能力。该数据集由西安交通大学的研究团队开发，并于2025年发布。它包含1200个问题，涵盖了经典力学、量子力学、流体力学、热力学、电磁学、光学和相对论等领域，旨在测试LLMs在不同难度级别上的知识基础和推理能力。PhysReason数据集的发布为物理推理研究提供了一个新的标准，并有助于推动AI模型在科学推理能力方面的提升。

当前挑战

PhysReason数据集面临的挑战包括：1) 物理推理的复杂性：数据集包含的知识基础问题和推理问题需要多步推理和精确应用物理定理，这对LLMs来说是一项挑战。2) 难度级别分类：数据集包含不同难度级别的问题，从易到难，对LLMs的推理能力提出了更高的要求。3) 多模态设计：数据集中81%的问题包含图表，这对LLMs理解和处理视觉信息的能力提出了挑战。4) 自动评分框架：数据集提出了物理解决方案自动评分框架（PSAS），该框架需要高效和准确地评估LLMs的推理过程，这也是一个挑战。

常用场景

经典使用场景

PhysReason 数据集被设计用来评估大型语言模型在基于物理的推理方面的能力。该数据集包含 1,200 个问题，分为知识型（25%）和推理型（75%）问题，其中推理型问题又分为简单、中等和困难三个难度级别。每个问题平均需要 8.1 个步骤来解答，而困难级别的问题需要 15.6 个步骤，这反映了基于物理推理的复杂性。PhysReason 数据集的提出填补了现有评估方法在物理推理方面的空白，为评估大型语言模型在物理世界交互方面的能力提供了一个新的、全面的基准。

实际应用

PhysReason 数据集的实际应用场景包括但不限于机器人、自动驾驶等领域。在这些领域，物理推理能力对于模型的性能至关重要。通过使用 PhysReason 数据集进行评估，可以更好地了解模型在物理推理方面的局限性，并针对性地进行改进，从而提高模型在机器人、自动驾驶等领域的性能。PhysReason 数据集的提出为这些领域的发展提供了重要的支持。

衍生相关工作

PhysReason 数据集的提出衍生了许多相关工作，例如，基于 PhysReason 数据集的模型改进、基于 PhysReason 数据集的评估方法研究等。这些相关工作进一步推动了大型语言模型在物理推理方面的发展，并为相关领域的研究提供了重要的参考。PhysReason 数据集的提出对于推动大型语言模型在物理推理方面的发展具有重要意义。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集