five

TheoremQA

收藏
OpenDataLab2026-05-17 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/TheoremQA
下载链接
链接失效反馈
官方服务:
资源简介:
我们提出了第一个由STEM定理驱动的问答数据集。我们注释了800 QA对,涵盖跨越数学,EE & CS,物理和金融的350定理。数据集是由人类专家收集的,质量非常高。我们提供数据集作为新的基准,以测试大型语言模型的局限性,以应用定理来解决具有挑战性的大学水平问题。我们在下面提供了一条管道,以提示LLMs并使用WolframAlpha评估其输出。

We present the first STEM theorem-driven question answering (QA) dataset. We annotated 800 QA pairs covering 350 theorems spanning mathematics, EE & CS, physics, and finance. The dataset was collected by human experts and boasts extremely high quality. We release the dataset as a novel benchmark to test the limitations of large language models (LLMs) when applying theorems to solve challenging college-level problems. A pipeline is provided below to prompt LLMs and evaluate their outputs using WolframAlpha.
提供机构:
OpenDataLab
创建时间:
2023-09-04
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
TheoremQA是一个高质量的STEM定理驱动问答数据集,包含800个QA对和350个定理,覆盖数学、EE & CS、物理和金融领域,旨在评估大型语言模型解决大学水平问题的能力。数据集由人类专家收集,并提供了与WolframAlpha集成的评估管道。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作