TheoremQA

arXiv2023-12-06 更新2024-07-30 收录

下载链接：

https://github.com/wenhuchen/TheoremQA

下载链接

链接失效反馈

资源简介：

TheoremQA是首个定理驱动的问答数据集，旨在评估AI模型应用定理解决复杂科学问题的能力。该数据集由领域专家精心策划，包含800个高质量问题，涵盖数学、物理、电气工程与计算机科学以及金融领域的350多个定理。数据集的创建过程分为两个步骤：首先列出约400个不同子领域的定理，然后由领域专家从互联网和教科书中搜索相关问题，并调整问题以确保答案格式适合自动评估。TheoremQA的应用领域广泛，可作为评估大型语言模型解决复杂科学问题能力的基准。

TheoremQA is the first theorem-driven question answering dataset designed to evaluate the ability of AI models to apply theorems to solve complex scientific problems. This dataset, carefully curated by domain experts, includes 800 high-quality questions covering over 350 theorems from the fields of mathematics, physics, electrical engineering, computer science, and finance. The dataset is constructed in two steps: first, compiling theorems from approximately 400 distinct subfields; then, domain experts search for relevant questions from the internet and textbooks, and revise the questions to ensure their answer formats are suitable for automated evaluation. TheoremQA has a wide range of applications and can serve as a benchmark for evaluating the capability of large language models to solve complex scientific problems.

提供机构：

滑铁卢大学, 加拿大♠

创建时间：

2023-05-22

原始信息汇总

数据集概述

更新状态: 该数据集详情页面已过时，请参考最新版本。
最新版本链接: https://github.com/TIGER-AI-Lab/TheoremQA
新版本特点:
- 使用情景学习（in-context learning）。
- 移除了“LLM答案提取”功能。
- 操作更为简单。

搜集汇总

数据集介绍

构建方式

TheoremQA 数据集的构建过程分为两个主要步骤：首先，研究人员利用大型语言模型 GPT-4 枚举了数学、物理、电子工程与计算机科学、金融等领域的大约 400 个定理。然后，他们邀请领域专家从互联网和教科书等不同来源寻找与这些定理相关的问题，并对这些问题进行调整，以确保答案符合自动评估的格式。最终，他们收集了 800 个高质量的“问题-定理-答案”三元组，构成了 TheoremQA 数据集。

使用方法

TheoremQA 数据集可以用于评估大型语言模型在解决挑战性科学问题方面的能力。研究人员使用了两种提示方法：思维链（CoT）和程序思维（PoT）来提示大型语言模型。此外，他们还探索了如何将定理融入 LLM 的思维过程中，以及如何向 LLM 呈现多模态输入。通过对 TheoremQA 数据集的评估，研究人员发现 GPT-4 在解决这些问题的能力方面无与伦比，使用程序思维提示时，准确率达到 51%。而所有现有的开源模型准确率都低于 15%，几乎没有超过随机猜测基线。

背景与挑战

背景概述

在人工智能领域，尤其是自然语言处理 (NLP) 和数学推理方面，近年来大型语言模型 (LLMs) 取得了显著进展。然而，这些模型在面对需要特定领域知识（例如定理）的更具挑战性的数学问题时，其能力尚未得到充分研究。为了评估和推动 LLMs 在解决这类问题方面的能力，研究人员提出了 TheoremQA 数据集。该数据集由领域专家精心策划，包含 800 个高质量的问题，涵盖了来自数学、物理、电子工程与计算机科学以及金融等领域的 350 个定理。TheoremQA 的创建旨在为评估 LLMs 应用定理解决复杂科学问题的能力提供一个新的基准。该数据集的发布于 2023 年，由来自加拿大滑铁卢大学、美国加州大学圣塔芭芭拉分校和美国加州大学洛杉矶分校的研究人员共同完成。

当前挑战

TheoremQA 数据集面临的挑战主要在于其设计目的本身，即评估 LLMs 解决需要特定领域知识的复杂科学问题的能力。具体而言，这些挑战包括：1) LLMs 在应用定理解决科学问题时表现出的能力；2) 构建过程中遇到的挑战。在解决领域问题的挑战方面，尽管 GPT-4 在 TheoremQA 数据集上取得了 51% 的准确率，但所有现有的开源模型在准确率上都低于 15%，甚至没有超过随机猜测的基线。这表明开源模型在处理需要特定领域知识的问题时仍然存在困难。在构建过程中的挑战方面，数据集的构建需要领域专家的参与，以确保问题的质量和答案的准确性。此外，TheoremQA 数据集还包含了具有图像输入的多模态问题，这对现有的视觉 LLMs 来说仍然是一个挑战。

常用场景

经典使用场景

TheoremQA数据集是首个针对定理驱动的问答任务的数据集，旨在评估AI模型在解决需要领域特定知识（即定理）的挑战性问题方面的能力。该数据集涵盖了数学、物理、电子工程与计算机科学以及金融等领域，包含800个高质量的问题，涉及350个定理。TheoremQA数据集的经典使用场景是作为评估大型语言模型（LLM）解决挑战性科学问题的能力的一个基准。研究者可以使用该数据集来评估不同LLM在应用定理解决复杂科学问题方面的表现，并比较不同模型的性能。

解决学术问题

TheoremQA数据集解决了现有数学问答数据集的两个主要缺陷：一是问题过于简单，二是缺乏领域特定知识（即定理）。现有的数据集主要针对小学到高中的基础问题，且不涉及定理。TheoremQA数据集涵盖了大学级别的定理，并包含挑战性的科学问题，为评估LLM解决复杂科学问题的能力提供了一个更好的基准。此外，该数据集还揭示了现有开源LLM在解决复杂数学推理任务方面的局限性，并指出了进一步研究和改进的方向。

实际应用

TheoremQA数据集的实际应用场景包括但不限于以下几个方面：1. 评估和比较不同LLM在解决挑战性科学问题方面的性能，为选择合适的模型提供参考；2. 研究和改进LLM在应用定理解决复杂科学问题方面的能力，推动科学问答领域的发展；3. 为LLM在解决实际问题中的应用提供数据支持，例如在教育和科研领域。

数据集最近研究