TheoremQA

github2024-04-12 更新2024-05-31 收录

下载链接：

https://github.com/TIGER-AI-Lab/TheoremQA

下载链接

链接失效反馈

官方服务：

资源简介：

We propose the first question-answering dataset driven by STEM theorems. We annotated 800 QA pairs covering 350+ theorems spanning across Math, EE&CS, Physics and Finance. The dataset is collected by human experts with very high quality. We provide the dataset as a new benchmark to test the limit of large language models to apply theorems to solve challenging university-level questions. We provide a pipeline in the following to prompt LLMs and evaluate their outputs with WolframAlpha.

本研究提出了首个由科学、技术、工程与数学（STEM）定理驱动的问答数据集。我们共标注800组问答对，覆盖数学、电子工程与计算机科学（EE&CS）、物理学及金融学领域的350余个定理。该数据集由领域专家人工构建，质量水准极高。我们将该数据集作为全新基准测试集，用于检验大语言模型（Large Language Model，LLM）运用定理解决高难度大学层级学术问题的能力边界。下文将提供一套标准化流程，用于对大语言模型开展提示工程，并通过WolframAlpha对模型输出结果进行评估。

创建时间：

2024-04-11

原始信息汇总

TheoremQA 数据集概述

数据集描述

名称: TheoremQA
类型: 问题回答数据集
特点: 首个由STEM定理驱动的问题回答数据集
规模: 包含800个问题回答对，覆盖超过350个定理
领域: 数学、电子与计算机科学、物理学和金融学
质量: 由人类专家收集，质量极高
目的: 作为新基准，测试大型语言模型应用定理解答大学水平问题的能力

数据集内容

定理覆盖: 数据集涵盖广泛的定理，具体领域包括但不限于数学、电子与计算机科学、物理学和金融学。
示例: 提供多个问题回答示例，展示数据集的具体应用。

数据集使用

可用性: 数据集已在Huggingface平台上线，链接为Huggingface。
评估工具: 提供与WolframAlpha结合的评估管道，用于评估大型语言模型的输出。

引用信息

引用格式:

@inproceedings{chen2023theoremqa, title={Theoremqa: A theorem-driven question answering dataset}, author={Chen, Wenhu and Yin, Ming and Ku, Max and Lu, Pan and Wan, Yixin and Ma, Xueguang and Xu, Jianyu and Wang, Xinyi and Xia, Tony}, booktitle={The 2023 Conference on Empirical Methods in Natural Language Processing}, year={2023} }

搜集汇总

数据集介绍

构建方式

TheoremQA数据集由人类专家精心构建，涵盖了800个高质量的问答对，涉及350多个定理，跨越数学、电子工程与计算机科学、物理学和金融学等多个领域。该数据集的构建旨在通过STEM定理驱动的问答任务，评估大型语言模型在解决大学级别复杂问题上的能力。专家们通过严格的标注流程，确保了数据集的高质量和学术严谨性。

特点

TheoremQA数据集的显著特点在于其定理驱动的问答模式，这使得数据集不仅具有学术深度，还具备广泛的应用场景。数据集覆盖了多个学科领域，从数学到金融，提供了多样化的定理应用实例。此外，数据集的高质量标注和专家参与确保了其作为评估语言模型的可靠基准。

使用方法

TheoremQA数据集可通过Huggingface平台进行访问和加载，用户可以使用提供的Python脚本进行数据集的加载和处理。为了评估模型的性能，数据集提供了一个5-shot ICL（In-Context Learning）的运行指令，用户可以通过指定模型链接并运行脚本来生成输出。此外，数据集还提供了与WolframAlpha集成的评估管道，以验证模型输出的准确性。

背景与挑战

背景概述

TheoremQA数据集由TIGER-Lab团队于2023年提出，是首个基于STEM定理的问答数据集，旨在评估大型语言模型在应用定理解决大学级别问题上的能力。该数据集由800个高质量的问答对组成，涵盖了数学、电子工程与计算机科学、物理学和金融学等多个领域，共涉及350多个定理。通过专家人工标注，TheoremQA为测试和提升语言模型在复杂定理应用方面的能力提供了新的基准，对推动自然语言处理技术在科学领域的应用具有重要意义。

当前挑战

TheoremQA数据集的主要挑战在于其复杂性和专业性。首先，数据集涵盖的定理广泛且深入，要求模型具备高度的知识理解和推理能力。其次，构建过程中需要专家人工标注，确保数据的准确性和高质量，这一过程耗时且成本高昂。此外，如何有效评估模型在处理这些定理驱动问题时的表现，也是一个亟待解决的问题，尤其是当涉及到需要外部工具（如WolframAlpha）进行验证的复杂计算时。

常用场景

经典使用场景

TheoremQA数据集的经典使用场景在于评估大型语言模型（LLMs）在应用科学定理解决复杂大学级别问题上的能力。该数据集通过800个高质量的问答对，涵盖了数学、电子工程与计算机科学、物理学和金融学等多个领域的350多个定理，为模型提供了丰富的测试环境。通过这种定理驱动的问答方式，研究者能够深入探索LLMs在处理高级学术问题时的表现，尤其是在需要精确应用定理的场景中。

实际应用

TheoremQA数据集的实际应用场景广泛，包括但不限于教育辅助工具、在线学习平台和智能导师系统。在这些应用中，数据集可以用于训练和评估模型，使其能够为学生提供基于定理的解答和解释，从而提升学习效果。此外，该数据集还可应用于科研领域，帮助研究人员自动化处理和验证复杂的理论问题，提高科研效率。

衍生相关工作

TheoremQA数据集的发布激发了大量相关研究工作，特别是在如何优化大型语言模型以更好地理解和应用科学定理方面。例如，有研究者利用该数据集开发了新的提示工程技术，以提高模型在特定定理应用中的表现。此外，还有工作探讨了如何结合符号计算工具（如WolframAlpha）与LLMs，以增强模型在处理复杂数学和科学问题时的能力。这些衍生工作不仅扩展了TheoremQA的应用范围，也推动了整个领域的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集