PHYBench|物理教育数据集|自然语言处理数据集

arXiv2025-04-23 更新2025-04-24 收录

物理教育

自然语言处理

下载链接：

https://phybench-official.github.io/phybench-demo/

下载链接

链接失效反馈

资源简介：

PHYBench是一个由北京大学物理学院创建的高质量物理问题基准数据集，包含500个基于真实世界物理场景精心挑选的物理问题，旨在评估大型语言模型在物理情境下的感知和推理能力。该数据集覆盖了从高中练习到大学课程以及物理奥赛挑战的各种难度级别，问题基于力学、电磁学、热力学、光学、现代物理和先进物理等多个领域。每个问题都围绕一个特定的物理场景构建，要求模型根据给定条件推导出关键物理量的符号表达式。

提供机构：

北京大学物理学院

创建时间：

2025-04-23

AI搜集汇总

数据集介绍

构建方式

PHYBench数据集通过多阶段严格筛选流程构建，涵盖力学、电磁学、热力学、光学、现代物理和高等物理六大领域。研究团队首先从真实物理场景中收集500道题目，由178名北京大学物理学院学生参与题目创作与验证。每道题目需满足三个核心标准：纯文本可解性、明确符号表达式答案和无歧义表述。题目经过内部平台多轮模型测试和109名人类专家验证，确保问题质量并消除潜在歧义。

特点

PHYBench的突出特点体现在三个方面：首先，题目难度梯度覆盖从高中练习到本科问题直至物理奥赛挑战，形成完整的评估谱系；其次，创新性地提出表达式编辑距离（EED）评分指标，通过数学表达式树结构的编辑距离计算，实现对模型推理过程和结果的细粒度评估；最后，所有问题均基于真实物理场景设计，强调物理感知与鲁棒推理能力的结合，有效区分模型的真实理解能力与模式记忆。

使用方法

使用PHYBench时需遵循标准化流程：采用统一提示模板触发模型响应，要求模型将最终答案以LaTeX公式形式置于\boxed{}环境中。评估阶段自动提取boxed内容，运用EED评分算法计算生成答案与标准答案的表达式树编辑距离。研究者可通过分析模型在不同物理领域的绝对优势与相对优势分数，系统评估模型在空间推理、场分布理解等多维度的能力表现。该基准测试支持API评估和本地部署两种模式，默认配置包括temperature=0.6，top_p=0.95等参数。

背景与挑战

背景概述

PHYBench是由北京大学物理学院及人工智能研究院联合开发的一个高质量基准测试集，旨在全面评估大语言模型在物理情境下的推理能力。该数据集于2025年4月正式发布，包含500道基于真实物理场景精心设计的物理问题，涵盖力学、电磁学、热力学、光学、现代物理和高等物理等多个领域，难度从高中水平延伸至本科及物理奥林匹克竞赛级别。PHYBench的推出填补了现有基准测试在物理推理评估方面的空白，为AI模型在复杂物理情境下的理解和推理能力提供了标准化评估工具。

当前挑战

PHYBench面临的核心挑战主要体现在三个方面：首先，在领域问题层面，现有模型对物理场景的感知能力不足，难以准确理解复杂的物理交互过程；其次，在构建过程中，确保问题表述的精确性和无歧义性面临挑战，特别是将可视化物理场景转化为纯文本描述时；最后，传统二元评分机制无法捕捉模型推理过程中的部分正确性，为此研究团队创新性地提出了基于数学表达式编辑距离的EED评分指标，以更精细地评估模型的物理推理能力。这些挑战使得即使最先进的大语言模型在PHYBench上的表现也显著落后于人类专家水平。

常用场景

经典使用场景

PHYBench数据集专为评估大语言模型在物理情境下的复杂推理能力而设计，其经典使用场景包括模型在力学、电磁学、热力学、光学、现代物理及高等物理等领域的符号推导与数值计算任务。通过500道基于真实物理场景的题目，研究者可系统测试模型对多步骤物理过程的理解能力，例如从动力学方程建立到边界条件应用的完整推理链条验证。

解决学术问题

该数据集解决了物理推理评估中三大核心学术问题：传统基准任务过度简化导致区分度不足、抽象问题缺乏现实物理 grounding，以及二元评分无法捕捉部分正确解。通过引入基于表达式编辑距离（EED）的连续评分机制，PHYBench首次实现了对模型物理感知（PP）与鲁棒推理（RR）能力的细粒度量化，为衡量AI系统真实物理理解能力提供了黄金标准。其人类专家基线（61.9%准确率）与最优模型（Gemini 2.5 Pro 36.9%）间的显著差距，揭示了当前LLM在复杂物理推理中的本质局限。

衍生相关工作

PHYBench的发布催生了多个重要研究方向：基于其问题框架的PhysiCoT工作提出了物理思维链微调方法，将人类专家解题轨迹转化为训练数据；EED度量启发的SymEdit算法被扩展至化学方程式比对领域；其分层难度设计理念影响了后续MathOlympus等跨学科基准的构建。数据集衍生的《物理感知与符号推理》白皮书已成为AI物理推理领域的纲领性文献，指导着包括MIT物理系与DeepMind合作项目在内的多项前沿研究。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

UniProt

UniProt（Universal Protein Resource）是全球公认的蛋白质序列与功能信息权威数据库，由欧洲生物信息学研究所（EBI）、瑞士生物信息学研究所（SIB）和美国蛋白质信息资源中心（PIR）联合运营。该数据库以其广度和深度兼备的蛋白质信息资源闻名，整合了实验验证的高质量数据与大规模预测的自动注释内容，涵盖从分子序列、结构到功能的全面信息。UniProt核心包括注释详尽的UniProtKB知识库（分为人工校验的Swiss-Prot和自动生成的TrEMBL），以及支持高效序列聚类分析的UniRef和全局蛋白质序列归档的UniParc。其卓越的数据质量和多样化的检索工具，为基础研究和药物研发提供了无可替代的支持，成为生物学研究中不可或缺的资源。

www.uniprot.org 收录

poi

本项目收集国内POI兴趣点，当前版本数据来自于openstreetmap。

github 收录

TCIA

TCIA（The Cancer Imaging Archive）是一个公开的癌症影像数据集，包含多种癌症类型的医学影像数据，如CT、MRI、PET等。这些数据通常与临床和病理信息相结合，用于癌症研究和临床试验。

www.cancerimagingarchive.net 收录

TM-Senti

TM-Senti是由伦敦玛丽女王大学开发的一个大规模、远距离监督的Twitter情感数据集，包含超过1.84亿条推文，覆盖了超过七年的时间跨度。该数据集基于互联网档案馆的公开推文存档，可以完全重新构建，包括推文元数据且无缺失推文。数据集内容丰富，涵盖多种语言，主要用于情感分析和文本分类等任务。创建过程中，研究团队精心筛选了表情符号和表情，确保数据集的质量和多样性。该数据集的应用领域广泛，旨在解决社交媒体情感表达的长期变化问题，特别是在表情符号和表情使用上的趋势分析。

arXiv 收录

RAVDESS

情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性，12位男性)，以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情，歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常，强烈) 下产生的，另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位，48kHz .wav)，音频-视频 (720p H.264，AAC 48kHz，.mp4) 和仅视频 (无声音)。注意，Actor_18没有歌曲文件。

OpenDataLab 收录