five

PHYBench|物理教育数据集|自然语言处理数据集

收藏
arXiv2025-04-23 更新2025-04-24 收录
物理教育
自然语言处理
下载链接:
https://phybench-official.github.io/phybench-demo/
下载链接
链接失效反馈
资源简介:
PHYBench是一个由北京大学物理学院创建的高质量物理问题基准数据集,包含500个基于真实世界物理场景精心挑选的物理问题,旨在评估大型语言模型在物理情境下的感知和推理能力。该数据集覆盖了从高中练习到大学课程以及物理奥赛挑战的各种难度级别,问题基于力学、电磁学、热力学、光学、现代物理和先进物理等多个领域。每个问题都围绕一个特定的物理场景构建,要求模型根据给定条件推导出关键物理量的符号表达式。
提供机构:
北京大学物理学院
创建时间:
2025-04-23
AI搜集汇总
数据集介绍
main_image_url
构建方式
PHYBench数据集通过多阶段严格筛选流程构建,涵盖力学、电磁学、热力学、光学、现代物理和高等物理六大领域。研究团队首先从真实物理场景中收集500道题目,由178名北京大学物理学院学生参与题目创作与验证。每道题目需满足三个核心标准:纯文本可解性、明确符号表达式答案和无歧义表述。题目经过内部平台多轮模型测试和109名人类专家验证,确保问题质量并消除潜在歧义。
特点
PHYBench的突出特点体现在三个方面:首先,题目难度梯度覆盖从高中练习到本科问题直至物理奥赛挑战,形成完整的评估谱系;其次,创新性地提出表达式编辑距离(EED)评分指标,通过数学表达式树结构的编辑距离计算,实现对模型推理过程和结果的细粒度评估;最后,所有问题均基于真实物理场景设计,强调物理感知与鲁棒推理能力的结合,有效区分模型的真实理解能力与模式记忆。
使用方法
使用PHYBench时需遵循标准化流程:采用统一提示模板触发模型响应,要求模型将最终答案以LaTeX公式形式置于\boxed{}环境中。评估阶段自动提取boxed内容,运用EED评分算法计算生成答案与标准答案的表达式树编辑距离。研究者可通过分析模型在不同物理领域的绝对优势与相对优势分数,系统评估模型在空间推理、场分布理解等多维度的能力表现。该基准测试支持API评估和本地部署两种模式,默认配置包括temperature=0.6,top_p=0.95等参数。
背景与挑战
背景概述
PHYBench是由北京大学物理学院及人工智能研究院联合开发的一个高质量基准测试集,旨在全面评估大语言模型在物理情境下的推理能力。该数据集于2025年4月正式发布,包含500道基于真实物理场景精心设计的物理问题,涵盖力学、电磁学、热力学、光学、现代物理和高等物理等多个领域,难度从高中水平延伸至本科及物理奥林匹克竞赛级别。PHYBench的推出填补了现有基准测试在物理推理评估方面的空白,为AI模型在复杂物理情境下的理解和推理能力提供了标准化评估工具。
当前挑战
PHYBench面临的核心挑战主要体现在三个方面:首先,在领域问题层面,现有模型对物理场景的感知能力不足,难以准确理解复杂的物理交互过程;其次,在构建过程中,确保问题表述的精确性和无歧义性面临挑战,特别是将可视化物理场景转化为纯文本描述时;最后,传统二元评分机制无法捕捉模型推理过程中的部分正确性,为此研究团队创新性地提出了基于数学表达式编辑距离的EED评分指标,以更精细地评估模型的物理推理能力。这些挑战使得即使最先进的大语言模型在PHYBench上的表现也显著落后于人类专家水平。
常用场景
经典使用场景
PHYBench数据集专为评估大语言模型在物理情境下的复杂推理能力而设计,其经典使用场景包括模型在力学、电磁学、热力学、光学、现代物理及高等物理等领域的符号推导与数值计算任务。通过500道基于真实物理场景的题目,研究者可系统测试模型对多步骤物理过程的理解能力,例如从动力学方程建立到边界条件应用的完整推理链条验证。
解决学术问题
该数据集解决了物理推理评估中三大核心学术问题:传统基准任务过度简化导致区分度不足、抽象问题缺乏现实物理 grounding,以及二元评分无法捕捉部分正确解。通过引入基于表达式编辑距离(EED)的连续评分机制,PHYBench首次实现了对模型物理感知(PP)与鲁棒推理(RR)能力的细粒度量化,为衡量AI系统真实物理理解能力提供了黄金标准。其人类专家基线(61.9%准确率)与最优模型(Gemini 2.5 Pro 36.9%)间的显著差距,揭示了当前LLM在复杂物理推理中的本质局限。
衍生相关工作
PHYBench的发布催生了多个重要研究方向:基于其问题框架的PhysiCoT工作提出了物理思维链微调方法,将人类专家解题轨迹转化为训练数据;EED度量启发的SymEdit算法被扩展至化学方程式比对领域;其分层难度设计理念影响了后续MathOlympus等跨学科基准的构建。数据集衍生的《物理感知与符号推理》白皮书已成为AI物理推理领域的纲领性文献,指导着包括MIT物理系与DeepMind合作项目在内的多项前沿研究。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国区域地面气象要素驱动数据集 v2.0(1951-2024)

中国区域地面气象要素驱动数据集(China Meteorological Forcing Data,以下简称 CMFD)是为支撑中国区域陆面、水文、生态等领域研究而研发的一套高精度、高分辨率、长时间序列数据产品。本页面发布的 CMFD 2.0 包含了近地面气温、气压、比湿、全风速、向下短波辐射通量、向下长波辐射通量、降水率等气象要素,时间分辨率为 3 小时,水平空间分辨率为 0.1°,时间长度为 74 年(1951~2024 年),覆盖了 70°E~140°E,15°N~55°N 空间范围内的陆地区域。CMFD 2.0 融合了欧洲中期天气预报中心 ERA5 再分析数据与气象台站观测数据,并在辐射、降水数据产品中集成了采用人工智能技术制作的 ISCCP-ITP-CNN 和 TPHiPr 数据产品,其数据精度较 CMFD 的上一代产品有显著提升。 CMFD 历经十余年的发展,其间发布了多个重要版本。2019 年发布的 CMFD 1.6 是完全采用传统数据融合技术制作的最后一个 CMFD 版本,而本次发布的 CMFD 2.0 则是 CMFD 转向人工智能技术制作的首个版本。此版本与 1.6 版具有相同的时空分辨率和基础变量集,但在其它诸多方面存在大幅改进。除集成了采用人工智能技术制作的辐射和降水数据外,在制作 CMFD 2.0 的过程中,研发团队尽可能采用单一来源的再分析数据作为输入并引入气象台站迁址信息,显著缓解了 CMFD 1.6 中因多源数据拼接和气象台站迁址而产生的虚假气候突变。同时,CMFD 2.0 数据的时间长度从 CMFD 1.6 的 40 年大幅扩展到了 74 年,并将继续向后延伸。CMFD 2.0 的网格空间范围虽然与 CMFD 1.6 相同,但其有效数据扩展到了中国之外,能够更好地支持跨境区域研究。为方便用户使用,CMFD 2.0 还在基础变量集之外提供了若干衍生变量,包括近地面相对湿度、雨雪分离降水产品等。此外,CMFD 2.0 摒弃了 CMFD 1.6 中通过 scale_factor 和 add_offset 参数将实型数据化为整型数据的压缩技术,转而直接将实型数据压缩存储于 NetCDF4 格式文件中,从而消除了用户使用数据时进行解压换算的困扰。 本数据集原定版本号为 1.7,但鉴于本数据集从输入数据到研制技术都较上一代数据产品有了大幅的改变,故将其版本号重新定义为 2.0。

国家青藏高原科学数据中心 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

AgiBot World

为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。

github 收录

HyperGlobal-450K - 全球最大规模高光谱图像数据集

HyperGlobal-450K数据集由武汉大学联合国内外多所知名高校及研究机构共同构建,是迄今为止全球规模最大的高光谱图像数据集。该数据集包含约45万张高光谱图像,规模等价于超过2000万张不重叠的三波段图像,远超现有的同类数据集。数据集涵盖了全球范围内的高光谱遥感图像,包括来自地球观测一号(EO-1)Hyperion和高分五号(GF-5B)两种传感器的图像,光谱范围从可见光到短波及中波红外,具有从紫外到长波红外的330个光谱波段,空间分辨率为30米。每幅图像经过精心处理,去除了无效波段和水汽吸收波段,保留了具有实际应用价值的光谱信息。HyperGlobal-450K数据集不仅支持高光谱图像的基础研究,还能够用于开发和测试各种高光谱图像处理方法,比如图像分类、目标检测、异常检测、变化检测、光谱解混、图像去噪和超分辨率等任务。

github 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录