CMPhysBench
收藏arXiv2025-08-26 更新2025-11-25 收录
下载链接:
https://hf-mirror.com/datasets/weidawang/CMPhysBench
下载链接
链接失效反馈官方服务:
资源简介:
CMPhysBench是一个用于评估大型语言模型在凝聚态物理领域问题解决能力的基准数据集。该数据集由超过520个精心策划的问题组成,涵盖了凝聚态物理的代表子领域和基础理论框架,如磁性、超导性、强关联系统等。为了保证对问题解决过程的深入理解,数据集专注于计算问题,要求LLMs独立生成完整的解决方案。此外,通过利用表达式的基于树的表示,我们引入了可扩展表达式编辑距离(SEED)评分,它提供了细粒度(非二进制)的部分学分,并提供了预测与真实情况之间相似性的更准确的评估。
CMPhysBench is a benchmark dataset for evaluating the problem-solving capabilities of large language models (LLMs) in the field of condensed matter physics. This dataset comprises over 520 carefully curated questions, covering representative subfields and foundational theoretical frameworks of condensed matter physics such as magnetism, superconductivity, strongly correlated systems, and more. To enable in-depth understanding of the problem-solving process, the dataset focuses on computational problems and requires LLMs to independently generate complete solutions. Furthermore, by leveraging tree-based representations of mathematical expressions, we introduce the Scalable Expression Edit Distance (SEED) score, which provides fine-grained (non-binary) partial credits and enables more accurate assessment of the similarity between predicted outputs and ground-truth solutions.
提供机构:
中国科学院物理研究所
创建时间:
2025-08-25
搜集汇总
数据集介绍

构建方式
在凝聚态物理这一高度复杂的研究领域中,CMPhysBench的构建遵循了严谨的学术标准。研究团队从17部权威研究生教材中系统收集了涵盖磁学、超导性、强关联系统等核心子领域的原始问题,通过PDF至Markdown格式的转换与结构化处理,确保了数据的机器可读性。随后由凝聚态物理专业的博士与博士后研究人员对问题进行人工筛选与标准化重构,重点保留了需要完整推导步骤的计算题型,最终形成了包含520道问题的基准数据集,每个问题均经过专家级的答案验证与分类标注。
特点
该数据集最显著的特征在于其深度聚焦于研究生层级的凝聚态物理问题,涵盖了从基础理论到前沿研究的完整知识谱系。不同于传统选择题型评估,CMPhysBench要求模型生成包含数学推导过程的开放式解答,其问题类型囊括表达式、方程、数值、元组与区间五种形式,真实反映了物理研究中的多元解答需求。特别引入的可扩展表达式编辑距离(SEED)评估指标,通过抽象语法树的结构化比对实现了对模型输出的细粒度评分,有效克服了传统二元评分体系在物理问题评估中的局限性。
使用方法
使用该数据集时,研究者可通过标准化的提示模板要求语言模型生成逐步推导的物理问题解答。评估阶段采用SEED指标对模型输出的数学表达式进行结构化解析,将预测答案与标准答案转换为抽象语法树后计算树编辑距离,该机制支持对部分正确解答的合理评分。实验表明,即使最先进的模型在该数据集上的SEED得分也仅为36分左右,凸显了当前语言模型在专业物理推理领域的显著能力缺口,为后续模型优化提供了明确方向。
背景与挑战
背景概述
CMPhysBench作为凝聚态物理领域的前沿评估基准,由上海人工智能实验室联合中国科学院物理研究所等机构于2025年共同发布。该数据集聚焦于评估大语言模型在凝聚态物理领域的专业能力,涵盖磁性、超导性、强关联系统等核心研究方向,通过520道研究生级别计算题目构建起严谨的评估体系。其创新性在于首次将评估深度延伸至凝聚态物理的专业研究层面,为人工智能与前沿物理研究的交叉融合提供了重要支撑。
当前挑战
该数据集面临双重挑战:在领域问题层面,需解决大语言模型对凝聚态物理复杂概念的理解偏差,如量子多体系统的数学表述与物理图像关联;在构建过程中,需克服专业题目标注的严谨性要求,包括微分方程解析解的结构一致性验证、张量运算的标准化表达等关键技术难点,同时确保不同答案类型在抽象语法树层面的可比性评估。
常用场景
经典使用场景
在凝聚态物理研究领域,CMPhysBench作为首个专注于研究生层次计算问题的基准测试集,其经典应用场景体现在系统评估大语言模型对复杂物理概念的理解能力。该数据集通过涵盖磁性、超导性、强关联系统等核心子领域的520道计算题,要求模型生成完整解题步骤而非简单答案,有效检验了模型在量子力学、统计物理等多学科交叉背景下的符号推理与数学推导能力。
衍生相关工作
该数据集的发布催生了多维度延伸研究,包括基于SEED指标的跨学科符号推理评估框架开发,以及针对强关联系统等特定子领域的专项测试集构建。相关研究进一步探索了物理先验知识与大语言模型的融合机制,衍生出结合守恒律验证、量纲分析等物理约束的增强型推理模型,推动形成了领域专用人工智能的新研究方向。
数据集最近研究
最新研究方向
在凝聚态物理领域,CMPhysBench作为首个专注于研究生层次计算问题的大语言模型评测基准,正推动该领域前沿研究向精细化评估与跨学科融合方向发展。该数据集通过涵盖磁性、超导、强关联系统等核心子领域,结合创新的可扩展表达式编辑距离(SEED)评估指标,揭示了现有模型在物理概念应用与数学逻辑推导方面的显著能力缺口。当前研究热点聚焦于提升模型对复杂符号运算的语义理解能力,并探索将领域知识嵌入推理链的优化策略,这对促进人工智能在凝聚态物理中的实际科学应用具有深远意义。
相关研究论文
- 1通过中国科学院物理研究所 · 2025年
以上内容由遇见数据集搜集并总结生成



