Turing-Open-Reasoning
收藏数据集概述
基本信息
- 数据集名称: Computational STEM QA Dataset
- 数据集标识: TuringEnterprises/Turing-Open-Reasoning
- 许可证: MIT
- 主要语言: 英语 (en)
- 大小类别: n<1K
- 任务类别: 问答 (question-answering)
数据集标签
- chemistry
- physics
- math
- biology
- code
数据集摘要
该数据集包含计算密集型、自包含且无歧义的STEM推理问题,涵盖物理学、数学、生物学和化学领域。问题需要多步推理、符号操作、数值精度或基于模拟的验证。这些任务旨在暴露最先进的大语言模型(LLM)的失败模式,使该数据集成为评估深度推理能力的强大基准。
数据结构
每个示例包含以下字段:
| 字段 | 类型 | 描述 |
|---|---|---|
conversation_id |
string | 每个问答对的唯一标识符。 |
domain |
string | 领域:物理学、数学、化学、生物学。 |
sub-domain |
string | 具体学科分支。 |
question |
string | STEM问题陈述。 |
answer |
string | 正确答案。 |
code |
string | 完整的Python代码。 |
数据集特征
- 自包含且无歧义
- 在STEM推理中大量使用LaTeX
- 所有示例都需要精确计算,无法通过解析方式解决
- 专为压力测试LLM推理能力而设计
- 提供解决问题的完整Python代码
数据集格式
该数据集以标准JSON格式提供,作为包含所有问题记录的顶级数组。
示例格式:
[ {"conversation_id": "1", "domain": "Physics", "sub-domain": "Mechanics", "question": "...", "answer": "...", "code": "..."}, {"conversation_id": "2", "domain": "Math", "sub-domain": "Algebra", "question": "...", "answer": "...", "code": "..."} ]
预期用途
- 微调STEM推理模型
- 评估LLM计算准确性
- 基准测试符号与数值推理能力
- 开发STEM辅导智能体
- 创建需要严格正确性的奖励模型
局限性
- 由于浮点数行为,数值结果可能略有不同
- Python代码仅假设可使用
numpy、scipy、pandas库 - 某些模型可能需要对LaTeX进行预处理
引用信息
@dataset{saurabh_2025_stemqa, title = {Computational STEM QA Dataset}, author = {Saurabh Patil,Anshuman Lall,Marko Pavlovic,Tejas Ukarde,Chinmayee Shukla,Mahesh Joshi,Kihwan Han}, year = {2025}, url = {https://huggingface.co/datasets/TuringEnterprises/Turing-Open-Reasoning/} }




