five

UGPhysics

收藏
github2025-02-19 更新2025-02-13 收录
下载链接:
https://github.com/YangLabHKUST/UGPhysics
下载链接
链接失效反馈
官方服务:
资源简介:
UGPhysics是一个大规模、全面的基准,旨在评估LLM在多个本科级别物理(UGPhysics)学科中的物理问题解决能力,包括三个主要领域中的5520个不同问题,13个核心主题和59个关键话题。

UGPhysics is a large-scale, comprehensive benchmark designed to evaluate the physics problem-solving capabilities of large language models (LLMs) across multiple undergraduate-level physics (UGPhysics) disciplines. It comprises 5,520 distinct problems spanning 13 core topics and 59 key topics across three primary domains.
创建时间:
2025-02-01
原始信息汇总

UGPhysics 数据集

数据集简介

UGPhysics 是一个大规模、全面的基准数据集,专为评估大型语言模型(LLM)在多个大学本科生级别物理学(UGPhysics)学科中的问题解决能力而设计。该数据集包含 5,520 个独特的问题,分为三个主要领域、13 个核心科目和 59 个关键主题。

数据集构成

  • 问题数量:5,520 个
  • 领域:3 个主要领域
  • 科目:13 个核心科目
  • 主题:59 个关键主题

使用说明

数据下载

bash git clone https://huggingface.co/datasets/UGPhysics/ugphysics mv ugphysics/* ./data/

模型测试

关闭源模型

bash python codes/infer_close.py --model ${MODEL} --subject ${SUBJECT}

开放源模型

bash python codes/generate_open.py --model ${MODEL} --system ${SYS_PROMPT} --subject ${SUBJECT} --tensor_parallel_size 8

评估

bash python codes/eval.py --model_path ${MODEL} --subject ${SUBJECT}

引用信息

plaintext @misc{xu2025ugphysics, title={UGPhysics: A Comprehensive Benchmark for Undergraduate Physics Reasoning with Large Language Models}, author={Xin Xu and Qiyun Xu and Tong Xiao and Tianhao Chen and Yuchen Yan and Jiaxin Zhang and Shizhe Diao and Can Yang and Yang Wang}, year={2025}, eprint={2502.00334}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2502.00334}, }

搜集汇总
数据集介绍
main_image_url
构建方式
UGPhysics是一个针对评估大型语言模型在本科物理问题解决能力的全面基准数据集,它涵盖了5,520个独特问题,这些问题分布在三个主要领域、13个核心科目和59个关键主题中,构建时注重对物理问题解决能力的深度与广度。
特点
该数据集的特点在于其规模宏大、内容全面,专门针对本科级别物理学科设计,不仅包含丰富的问题数量,还覆盖了物理学科的核心领域,旨在为大型语言模型提供一套全面的物理问题解决能力评估标准。
使用方法
用户可以通过Hugging Face平台下载该数据集,使用提供的脚本进行模型的推断和评估。具体操作包括下载数据集、配置模型和科目的参数,以及运行推断和评估脚本,以获取模型的性能指标。
背景与挑战
背景概述
UGPhysics数据集,于2025年2月1日由Xin Xu等人发布,旨在评估大型语言模型(LLM)在解决本科阶段物理问题方面的能力。该数据集涵盖三个主要领域、13个核心科目和59个关键主题,共计5520个独特问题,为相关领域提供了一个大规模、全面的基准。UGPhysics的创建,不仅丰富了物理学问题解决能力评估的资源,也为大型语言模型在物理学领域的应用研究提供了有力支撑,对促进相关技术的发展和学术交流具有重要影响。
当前挑战
UGPhysics数据集面临的挑战主要包括:1)如何准确评估LLM在解决本科物理问题方面的性能,这涉及到评估指标的精确性和公正性;2)构建这样一个大规模数据集的过程中,如何确保问题的高质量和多样性,同时保持数据集的一致性和准确性。此外,如何利用该数据集促进LLM在物理学教育中的应用,以及如何处理开放性问题和主观判断在评估中的影响,也是当前研究的难点所在。
常用场景
经典使用场景
UGPhysics作为一个针对评估大型语言模型在本科物理问题解决能力上的大规模、全面基准,其经典使用场景在于为研究者和工程师提供一个标准化的测试平台,以准确衡量模型在物理问题解答方面的性能。该数据集覆盖了多个本科物理学科领域,通过其构建的问题库,研究者能够对模型进行细致的评价,从而推动自然语言处理技术在物理学科教育中的应用。
实际应用
在实际应用中,UGPhysics数据集可以辅助教育工作者开发智能教学系统,为学生提供即时反馈和个性化学习建议。此外,它还能被用于开发智能助手,为科研人员提供科学计算的辅助功能,从而提升科研效率。
衍生相关工作
UGPhysics数据集的发布激发了诸多相关工作,如构建更为专业的物理问题解决模型、开发新的评估方法以及探索多模态学习在物理问题解答中的应用等。这些衍生工作不仅推动了自然语言处理技术的发展,也为物理学科的教育和研究提供了新的视角和工具。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作