numina-tir-2kx4
收藏Hugging Face2025-04-25 更新2025-04-26 收录
下载链接:
https://huggingface.co/datasets/andynik/numina-tir-2kx4
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个数学问题解答比较数据集,包含代数、几何、数论和组合学四个领域的题目。每个题目都有人工编写的解题步骤、正确答案以及四个不同大型语言模型生成的解答过程和答案正确性。
创建时间:
2025-04-24
搜集汇总
数据集介绍

构建方式
在数学推理领域的大模型性能评估需求背景下,numina-tir-2kx4数据集通过系统化重构Numina-Math-TIR原始数据构建而成。研究团队将数学问题划分为代数、几何、数论和组合数学四大领域,并采用GPT-4o-mini、Mathstral-7B等四种前沿大语言模型生成解题过程。每个问题的解决方案均经过人工验证答案正确性,最终形成包含问题陈述、人工解答步骤、标准答案及不同模型解题轨迹的标准化JSON记录。
特点
该数据集最显著的特征在于其多维度的比较研究框架,不仅涵盖四大基础数学领域的问题分布,更完整记录了四种大语言模型的链式推理过程及其最终答案准确性。每个数据条目包含详细的思维链文本和二进制正确性标注,为研究者提供了分析模型在不同数学领域表现差异的细粒度数据。数据集特别保留了原始解题对话的完整token序列,最长达2048个token,确保推理过程的完整性得以充分展现。
使用方法
该数据集主要服务于大语言模型数学推理能力的评估与比较研究。使用者可通过解析JSON结构中的topic字段进行领域分类研究,对比answer_model系列字段分析不同模型的准确率差异,或深入研究messages字段中的思维链文本以理解模型的推理模式。为保障研究可复现性,建议配合原始论文描述的过滤流程进行数据清洗,并注意字符串类型参数的统一处理要求。典型应用场景包括数学专项能力评测、思维链优化研究以及跨领域知识迁移分析等。
背景与挑战
背景概述
numina-tir-2kx4数据集由Andrii D. Nikolaiev和Oleksandr V. Derevianchenko于2024年构建,旨在评估大型语言模型(LLMs)在不同数学领域的问题解决能力。该数据集基于Numina-Math-TIR数据集,重新组织为代数、几何、数论和组合数学四个领域,涵盖了多样化的数学问题。通过比较GPT-4o-mini、Mathstral-7B、Qwen2.5-Math-7B和Llama-3.1-8B-Instruct等模型的解答表现,该数据集为数学推理领域的研究提供了重要基准,推动了LLMs在复杂数学任务中的应用与发展。
当前挑战
该数据集面临的挑战主要集中在两个方面:一是数学问题本身的复杂性,不同领域的问题需要模型具备多样化的推理能力,例如组合数学中的非相邻选择问题或几何中的空间推理能力;二是数据构建过程中的挑战,包括问题分类的一致性、模型解答的准确性验证以及数据重复或错误的处理。此外,如何确保不同模型生成的链式推理(chain-of-thought)解决方案的可比性,也是该数据集构建过程中的关键难点。
常用场景
经典使用场景
在数学推理与大型语言模型(LLMs)研究领域,numina-tir-2kx4数据集被广泛用于评估不同LLMs在代数、几何、数论和组合数学等核心数学领域的解题能力。研究者通过对比GPT-4o-mini、Mathstral-7B等模型的链式推理过程与人类验证答案,系统分析模型在复杂数学问题中的逻辑严谨性与泛化性能。这一场景为优化模型数学推理架构提供了标准化基准。
解决学术问题
该数据集有效解决了LLMs跨数学领域能力评估的空白问题。通过结构化记录四大数学分支的题目、人类标准解及多模型输出,研究者可量化分析模型在抽象代数推导、空间几何建模等任务中的表现差异。其标注体系为揭示LLMs认知边界、开发领域自适应训练策略提供了关键数据支撑,推动了可解释AI在数学教育中的应用研究。
衍生相关工作
基于该数据集的多模态分析催生了系列重要研究,如《数学领域大语言模型认知图谱构建》通过聚类算法揭示了模型在数论问题的系统性偏差。后续工作MathBERT-Proof利用该数据训练了数学证明验证器,而团队发表的对比学习框架CoT-Explorer则开创了链式推理的可视化评估范式,相关成果被ICLR等顶会收录。
以上内容由遇见数据集搜集并总结生成



