UTQA

Name: UTQA
Creator: 维尔茨堡大学物理与理论化学研究所
Published: 2025-08-29 17:36:54
License: 暂无描述

arXiv2025-08-29 更新2025-11-25 收录

下载链接：

https://huggingface.co/datasets/herteltm/UTQA

下载链接

链接失效反馈

官方服务：

资源简介：

UTQA是一个包含50个单项选择题的数据集，旨在评估大型语言模型在本科热力学方面的能力，特别是理想气体过程、可逆性和图解解释。该数据集包含了33个纯文本问题和17个基于图解的问题，涵盖了热力学第一和第二定律、熵的变化、压力-体积功、热传递以及准静态和非准静态转换的区别。数据集的开发过程由专家驱动，并经过多次迭代，以确保问题的清晰度和概念重点。UTQA旨在解决当前大型语言模型在科学推理方面的局限性，并为教育测量提供一个标准化的测试平台。

UTQA is a dataset comprising 50 multiple-choice questions, designed to evaluate the proficiency of large language models (LLMs) in undergraduate-level thermodynamics, with a specific focus on ideal gas processes, reversibility, and graphical interpretation. The dataset includes 33 text-only questions and 17 diagram-based questions, covering the first and second laws of thermodynamics, entropy changes, pressure-volume work, heat transfer, as well as the distinction between quasi-static and non-quasi-static transformations. The development of this dataset is expert-driven and underwent multiple iterations to ensure question clarity and conceptual focus. UTQA aims to address the current limitations of large language models in scientific reasoning, and serves as a standardized testbed for educational assessment.

提供机构：

维尔茨堡大学物理与理论化学研究所

创建时间：

2025-08-29

搜集汇总

数据集介绍

构建方式

在热力学教育领域，构建能够评估大型语言模型推理能力的基准数据集至关重要。UTQA数据集通过专家驱动的迭代过程开发，涵盖50道本科热力学单项选择题，聚焦于理想气体过程、可逆性与熵等核心概念。题目设计遵循教育测量原则，每道题针对单一概念或推理技能，确保逻辑结构清晰且避免歧义。数据收集包括33道纯文本题和17道图表题，所有题目均经过领域专家多轮评审，以验证内容准确性与教学适用性。

特点

UTQA数据集的特点体现在其精心设计的题目结构与内容覆盖上。该数据集强调多步骤推理能力，而非简单知识回忆，尤其关注热力学中的关键区分点，如状态函数与路径函数的差异、可逆与不可逆过程的判定。题目包含多种图表类型（如p-V图、T-S图），要求模型将视觉特征与热力学含义绑定。干扰项基于常见误解设计，例如混淆绝热与可逆过程，从而有效检验模型的原理性推理能力。

使用方法

该数据集的使用方法聚焦于评估大型语言模型在热力学领域的推理性能。研究通常采用单一提示策略，在温度参数T=0.7下进行单次运行测试，以最小化上下文持续性影响。评估涵盖17种提示变体，包括最小指令、链式思维和消除式提示等，以检验模型对输入质量的敏感性。数据集支持分模态分析，可单独测试文本推理或图表解读能力，并为模型在有限速率过程和多模态绑定等薄弱环节的诊断提供标准化的基准框架。

背景与挑战

背景概述

热力学作为物理化学的核心分支，其理论体系虽简洁却蕴含深刻的概念区分，如状态函数与路径函数的差异、可逆与不可逆过程的界定，这些微妙区别构成了本科教学中的关键难点。UTQA数据集由维尔茨堡大学物理与理论化学研究所的Anna Geißler等学者于2025年创建，旨在填补现有科学基准在热力学推理评估上的空白。该数据集聚焦理想气体过程、熵与可逆性等核心议题，通过50道单选题目系统检验大语言模型在本科热力学教育中的原理性推理能力，为评估人工智能在无监督教学场景下的适用性提供了重要标尺。

当前挑战

UTQA致力于解决大语言模型在热力学教育领域的两类核心挑战：其一是概念推理的深度不足，尤其在处理有限速率不可逆过程时，模型难以整合耗散效应与可行性边界等多重约束；其二是多模态语义绑定能力的局限，尽管模型能解析热力学图表的基本要素，却无法将几何特征（如p-V曲线面积）准确映射为物理意义（如系统做功）。在构建过程中，研究者需克服题目设计的双重平衡——既要保持概念聚焦以降低认知负荷，又需通过图形推理题实现视觉特征与热力学定律的深度融合，这对题目迭代验证与专家评审流程提出了极高要求。

常用场景

经典使用场景

在热力学教育评估领域，UTQA数据集作为专业基准测试工具，主要用于系统评估大语言模型在本科热力学课程中的概念理解能力。该数据集通过50道精心设计的单项选择题，深入考察理想气体过程、可逆性与熵变等核心概念，特别强调对状态函数与路径函数的区分能力。其经典应用场景体现在为模型开发者提供标准化的性能评估框架，通过对比不同模型在文本推理与图像解析任务中的表现差异，揭示当前人工智能在科学教育辅助工具开发中的技术瓶颈。

衍生相关工作

UTQA数据集的发布催生了多个重要的衍生研究方向。在基准测试方法学层面，其创新的多模态问题设计启发了后续研究对科学图表理解能力的系统评估；在模型优化领域，基于该数据集发现的提示工程敏感性推动了针对科学推理的专用提示策略开发。同时，该工作建立的严格评估标准为后续扩展性研究奠定基础，包括向真实气体行为、相平衡等复杂热力学现象的基准测试延伸，形成了以原理性推理为核心的新一代科学教育评估范式。

数据集最近研究