five

CMPhysBench

收藏
Hugging Face2025-08-27 更新2025-08-28 收录
下载链接:
https://huggingface.co/datasets/weidawang/CMPhysBench
下载链接
链接失效反馈
官方服务:
资源简介:
CMPhysBench是一个评估大型语言模型在凝聚态物理领域表现的研究生级别问题基准数据集。包含520多个问题,涵盖凝聚态物理的多个子领域和理论框架,专注于计算问题,并使用SEED评分进行细致的评估。
创建时间:
2025-08-16
原始信息汇总

CMPhysBench 数据集概述

数据集基本信息

  • 名称:CMPhysBench
  • 许可证:Apache 2.0
  • 任务类别:问答
  • 语言:英语
  • 标签:凝聚态物理
  • 规模:520个样本

数据集描述

CMPhysBench是一个用于评估大语言模型在凝聚态物理领域能力的新型基准测试。该数据集包含520多个研究生级别的精心策划问题,涵盖凝聚态物理的代表性子领域和基础理论框架,如磁性、超导性、强关联系统等。

核心特点

  • 专注于计算问题,要求大语言模型独立生成全面解决方案
  • 引入可扩展表达式编辑距离(SEED)评分,提供细粒度(非二进制)部分信用,更准确评估预测与真实值之间的相似性

评估结果

最佳模型Grok-4在CMPhysBench上的平均SEED得分仅为36,准确率为28%,显示出在这一前沿领域与传统物理学相比存在显著能力差距。

相关资源

  • 论文:https://arxiv.org/abs/2508.18124
  • 代码:https://github.com/CMPhysBench/CMPhysBench
  • 数据:https://huggingface.co/datasets/weidawang/CMPhysBench
  • 许可证:https://github.com/CMPhysBench/CMPhysBench/blob/main/LICENSE

致谢

CMPhysBench受到PHYBench、PHYSICS、GPQA和OlympiadBench等先前数据集工作的启发。SEED评分方法基于PHYBench的表达式编辑距离(EED)指标进行扩展和改进。

引用信息

bibtex @misc{wang2025cmphysbench, title={CMPhysBench: A Benchmark for Evaluating Large Language Models in Condensed Matter Physics}, author={Weida Wang and Dongchen Huang and Jiatong Li and Tengchao Yang and Ziyang Zheng and Di Zhang and Dong Han and Benteng Chen and Binzhao Luo and Zhiyu Liu and Kunling Liu and Zhiyuan Gao and Shiqi Geng and Wei Ma and Jiaming Su and Xin Li and Shuchen Pu and Yuhan Shui and Qianjia Cheng and Zhihao Dou and Dongfei Cui and Changyong He and Jin Zeng and Zeke Xie and Mao Su and Dongzhan Zhou and Yuqiang Li and Wanli Ouyang and Yunqi Cai and Xi Dai and Shufei Zhang and Lei Bai and Jinguang Cheng and Zhong Fang and Hongming Weng}, year={2025}, eprint={2508.18124}, archivePrefix={arXiv}, primaryClass={cs.LG}, url={https://arxiv.org/abs/2508.18124}, }

搜集汇总
数据集介绍
main_image_url
构建方式
在凝聚态物理这一前沿领域,CMPhysBench数据集的构建过程体现了严谨的学术标准。研究团队精心筛选了超过520道研究生级别的计算题目,覆盖磁性、超导性、强关联体系等核心子领域。题目来源基于代表性理论框架,确保内容深度与广度兼备。每个问题均要求大语言模型独立生成完整解答,从而评估其物理推理与符号计算能力。
特点
该数据集显著特色在于其评估体系的创新性。除了传统二进制准确率指标,团队引入了基于表达式树结构的可扩展表达式编辑距离(SEED)评分机制。该机制能对模型输出的数学表达式进行细粒度相似度分析,提供部分信用评分,从而更精确地反映模型在符号推理方面的性能差距。这种设计特别适合处理凝聚态物理中复杂的数学表述。
使用方法
使用该数据集时,研究者可通过标准问答接口输入物理问题,获取模型生成的完整解题过程。评估阶段需同时计算传统准确率和SEED分数,后者通过解析预测表达式与标准答案的树结构差异实现。数据集支持对大语言模型在专业物理领域的推理能力进行多维评估,尤其适合检验模型在复杂计算问题上的表现。
背景与挑战
背景概述
凝聚态物理学作为探索物质宏观量子行为的核心领域,长期面临着复杂理论框架与实验现象之间的诠释挑战。CMPhysBench由研究团队于2025年创建,旨在系统评估大语言模型在凝聚态物理领域的专业认知与计算推理能力。该数据集涵盖磁性、超导性、强关联体系等关键子领域,通过520道研究生级别计算题构建评估体系,推动了人工智能在前沿物理领域的应用边界拓展。
当前挑战
该数据集针对凝聚态物理中多体系统量子行为的数学建模难题,要求模型具备符号运算与物理直觉的双重能力。构建过程中需克服专业问题标注的一致性挑战,特别是对复杂表达式树结构的标准化表示。传统评估指标难以量化部分正确解,团队为此开发了可扩展表达式编辑距离(SEED)评分体系,以精细评估模型输出与标准解的语义相似度。
常用场景
经典使用场景
在凝聚态物理研究领域,CMPhysBench作为专项评估工具,主要用于测试大型语言模型在解决复杂物理问题时的计算与推理能力。该数据集通过涵盖磁性、超导性及强关联系统等核心子领域的520余道研究生级别计算题,要求模型独立生成完整解题过程,从而检验其深度理解与符号推理水平。
解决学术问题
CMPhysBench致力于解决当前大语言模型在专业科学领域评估缺失的问题,尤其针对凝聚态物理这类前沿且实践性强的学科。通过引入可扩展表达式编辑距离(SEED)评分机制,该数据集实现了对模型输出的细粒度非二元评估,显著提升了物理推理能力衡量的准确性与可靠性,填补了专业物理问题求解评估的空白。
衍生相关工作
CMPhysBench的构建受到多项前沿工作的启发,包括PHYBench的表达式编辑距离理念、GPQA的高阶问答基准设计以及OlympiadBench的多模态科学问题框架。在此基础上衍生的SEED评分算法已成为新兴评估标准,后续研究如物理推理数据集PHYSICS等均借鉴其评估范式,推动了专业科学大模型评估体系的完善与发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作