Turing-Open-Reasoning

Hugging Face2025-12-06 更新2025-12-07 收录

下载链接：

https://huggingface.co/datasets/TuringEnterprises/Turing-Open-Reasoning

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含跨物理学、数学、生物学和化学的计算密集型、自包含且明确的STEM推理问题。问题需要多步推理、符号操作、数值精度或基于模拟的验证。这些任务暴露了最先进LLM的失败模式，使该数据集成为评估深度推理的强大基准。每个示例包括：conversation_id、domain和sub-domain、带有LaTeX的严谨问题、确定性答案以及用于模拟或验证的可选Python代码。

创建时间：

2025-12-03

原始信息汇总

数据集概述

基本信息

数据集名称: Computational STEM QA Dataset
数据集标识: TuringEnterprises/Turing-Open-Reasoning
许可证: MIT
主要语言: 英语 (en)
大小类别: n<1K
任务类别: 问答 (question-answering)

数据集标签

chemistry
physics
math
biology
code

数据集摘要

该数据集包含计算密集型、自包含且无歧义的STEM推理问题，涵盖物理学、数学、生物学和化学领域。问题需要多步推理、符号操作、数值精度或基于模拟的验证。这些任务旨在暴露最先进的大语言模型（LLM）的失败模式，使该数据集成为评估深度推理能力的强大基准。

数据结构

每个示例包含以下字段：

字段	类型	描述
`conversation_id`	string	每个问答对的唯一标识符。
`domain`	string	领域：物理学、数学、化学、生物学。
`sub-domain`	string	具体学科分支。
`question`	string	STEM问题陈述。
`answer`	string	正确答案。
`code`	string	完整的Python代码。

数据集特征

自包含且无歧义
在STEM推理中大量使用LaTeX
所有示例都需要精确计算，无法通过解析方式解决
专为压力测试LLM推理能力而设计
提供解决问题的完整Python代码

数据集格式

该数据集以标准JSON格式提供，作为包含所有问题记录的顶级数组。

示例格式：

[ {"conversation_id": "1", "domain": "Physics", "sub-domain": "Mechanics", "question": "...", "answer": "...", "code": "..."}, {"conversation_id": "2", "domain": "Math", "sub-domain": "Algebra", "question": "...", "answer": "...", "code": "..."} ]

预期用途

微调STEM推理模型
评估LLM计算准确性
基准测试符号与数值推理能力
开发STEM辅导智能体
创建需要严格正确性的奖励模型

局限性

由于浮点数行为，数值结果可能略有不同
Python代码仅假设可使用 numpy、scipy、pandas 库
某些模型可能需要对LaTeX进行预处理

引用信息

@dataset{saurabh_2025_stemqa, title = {Computational STEM QA Dataset}, author = {Saurabh Patil,Anshuman Lall,Marko Pavlovic,Tejas Ukarde,Chinmayee Shukla,Mahesh Joshi,Kihwan Han}, year = {2025}, url = {https://huggingface.co/datasets/TuringEnterprises/Turing-Open-Reasoning/} }

搜集汇总

数据集介绍

构建方式

在科学、技术、工程和数学（STEM）领域，高质量推理数据的稀缺性促使研究者构建了Turing-Open-Reasoning数据集。该数据集通过精心设计，汇集了涵盖物理、数学、化学和生物学的计算密集型问题。每个问题均具备自包含且无歧义的特性，并严格采用LaTeX格式表述，确保了科学表达的精确性。构建过程中，团队为每道题目生成了确定性的标准答案，并附带了完整的Python代码，用于模拟验证或直接求解，从而形成了一套结构严谨、可复现的基准测试资源。

特点

该数据集的核心特征在于其问题设计着重于多步骤推理、符号运算与数值计算，旨在深度检验模型的逻辑推演能力。题目普遍要求精确的计算验证，无法仅通过解析方式简单作答，这有效暴露了当前大语言模型在复杂推理任务上的局限性。此外，数据集内广泛嵌入了LaTeX数学公式，并提供了配套的可执行代码，使得评估过程不仅关注最终答案的正确性，也兼顾了推理过程的可靠性与可验证性，为衡量模型的STEM深层理解设立了高标准。

使用方法

研究人员可利用该数据集对模型进行微调，以增强其在STEM领域的专业推理能力。在评估层面，它适用于严格测试大语言模型的计算准确性、符号与数值结合推理的效能，是构建可靠基准测试的理想工具。实际应用中，开发者可借助数据集训练STEM辅导智能体或构建要求严格正确性的奖励模型。使用前需注意对LaTeX内容进行适当预处理，并确保运行环境支持相关的科学计算库，以保障代码验证环节的顺利执行。

背景与挑战

背景概述

在人工智能领域，尤其是大语言模型（LLMs）的快速发展背景下，评估模型在科学、技术、工程和数学（STEM）领域的深度推理能力已成为一项关键研究议题。Turing-Open-Reasoning数据集由Turing Enterprises的研究团队于2025年创建，旨在提供一套计算密集型、自包含且无歧义的STEM推理问题，涵盖物理、数学、化学和生物学等多个学科。该数据集的核心研究问题聚焦于如何系统性地测试LLMs在多步骤推理、符号操作、数值计算及模拟验证等方面的能力，从而揭示现有先进模型在复杂科学问题处理中的潜在缺陷。其设计不仅为模型微调与评估提供了严谨基准，也推动了STEM教育智能体与奖励模型的发展，对提升人工智能在科学计算与教育应用中的可靠性具有显著影响力。

当前挑战

该数据集致力于解决STEM领域问答任务中的核心挑战，即如何确保模型能够执行精确、多步骤且依赖符号与数值的复杂推理，而非依赖表面模式匹配。具体而言，挑战包括模型在处理包含LaTeX格式的科学表述时可能出现的解析错误，以及在执行浮点运算或模拟代码时因数值精度差异导致的答案偏差。在构建过程中，研究人员面临如何设计既自包含又无歧义的问题陈述，同时确保每个问题均可通过确定性计算或代码模拟进行验证的难题。此外，数据集对Python代码库的有限依赖（如仅限numpy、scipy等）也带来了环境一致性与可复现性方面的约束，这些因素共同构成了对现有LLMs推理能力进行压力测试的关键障碍。

常用场景

经典使用场景

在计算密集型科学、技术、工程和数学领域，Turing-Open-Reasoning数据集被广泛用于评估大型语言模型的多步推理与符号计算能力。该数据集精心设计了涵盖物理、数学、化学和生物学的自包含问题，每个问题均要求模型执行精确的数值运算、符号推导或基于仿真的验证。研究者通过该数据集能够系统性地测试模型在复杂STEM场景下的深层逻辑演绎与计算准确性，从而揭示现有模型在符号推理与数值处理方面的关键瓶颈。

实际应用

在实际应用层面，Turing-Open-Reasoning数据集为构建智能STEM辅导系统与自动化解题工具提供了关键训练资源。教育技术领域可借助该数据集开发能够逐步推导、精确计算并给出解释性解答的智能助教系统。同时，在科研辅助与工程仿真中，该数据集有助于训练模型执行复杂的公式推导与数值验证，提升科学工作流程的自动化水平与可靠性。

衍生相关工作

围绕该数据集，学术界已衍生出一系列专注于增强模型科学推理能力的研究工作。例如，基于其构建的基准测试被用于评估与改进模型在符号数学与物理仿真任务上的性能；同时，该数据集也激励了结合程序合成与符号引擎的混合推理方法的探索。这些工作共同推动了面向STEM领域的高可靠性AI系统的算法创新与评测体系的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集