numina-tir-2kx4

Hugging Face2025-04-25 更新2025-04-26 收录

下载链接：

https://huggingface.co/datasets/andynik/numina-tir-2kx4

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个数学问题解答比较数据集，包含代数、几何、数论和组合学四个领域的题目。每个题目都有人工编写的解题步骤、正确答案以及四个不同大型语言模型生成的解答过程和答案正确性。

创建时间：

2025-04-24

搜集汇总

数据集介绍

构建方式

在数学推理领域的大模型性能评估需求背景下，numina-tir-2kx4数据集通过系统化重构Numina-Math-TIR原始数据构建而成。研究团队将数学问题划分为代数、几何、数论和组合数学四大领域，并采用GPT-4o-mini、Mathstral-7B等四种前沿大语言模型生成解题过程。每个问题的解决方案均经过人工验证答案正确性，最终形成包含问题陈述、人工解答步骤、标准答案及不同模型解题轨迹的标准化JSON记录。

特点

该数据集最显著的特征在于其多维度的比较研究框架，不仅涵盖四大基础数学领域的问题分布，更完整记录了四种大语言模型的链式推理过程及其最终答案准确性。每个数据条目包含详细的思维链文本和二进制正确性标注，为研究者提供了分析模型在不同数学领域表现差异的细粒度数据。数据集特别保留了原始解题对话的完整token序列，最长达2048个token，确保推理过程的完整性得以充分展现。

使用方法

该数据集主要服务于大语言模型数学推理能力的评估与比较研究。使用者可通过解析JSON结构中的topic字段进行领域分类研究，对比answer_model系列字段分析不同模型的准确率差异，或深入研究messages字段中的思维链文本以理解模型的推理模式。为保障研究可复现性，建议配合原始论文描述的过滤流程进行数据清洗，并注意字符串类型参数的统一处理要求。典型应用场景包括数学专项能力评测、思维链优化研究以及跨领域知识迁移分析等。

背景与挑战

背景概述

numina-tir-2kx4数据集由Andrii D. Nikolaiev和Oleksandr V. Derevianchenko于2024年构建，旨在评估大型语言模型（LLMs）在不同数学领域的问题解决能力。该数据集基于Numina-Math-TIR数据集，重新组织为代数、几何、数论和组合数学四个领域，涵盖了多样化的数学问题。通过比较GPT-4o-mini、Mathstral-7B、Qwen2.5-Math-7B和Llama-3.1-8B-Instruct等模型的解答表现，该数据集为数学推理领域的研究提供了重要基准，推动了LLMs在复杂数学任务中的应用与发展。

当前挑战

该数据集面临的挑战主要集中在两个方面：一是数学问题本身的复杂性，不同领域的问题需要模型具备多样化的推理能力，例如组合数学中的非相邻选择问题或几何中的空间推理能力；二是数据构建过程中的挑战，包括问题分类的一致性、模型解答的准确性验证以及数据重复或错误的处理。此外，如何确保不同模型生成的链式推理（chain-of-thought）解决方案的可比性，也是该数据集构建过程中的关键难点。

常用场景

经典使用场景

在数学推理与大型语言模型（LLMs）研究领域，numina-tir-2kx4数据集被广泛用于评估不同LLMs在代数、几何、数论和组合数学等核心数学领域的解题能力。研究者通过对比GPT-4o-mini、Mathstral-7B等模型的链式推理过程与人类验证答案，系统分析模型在复杂数学问题中的逻辑严谨性与泛化性能。这一场景为优化模型数学推理架构提供了标准化基准。

解决学术问题

该数据集有效解决了LLMs跨数学领域能力评估的空白问题。通过结构化记录四大数学分支的题目、人类标准解及多模型输出，研究者可量化分析模型在抽象代数推导、空间几何建模等任务中的表现差异。其标注体系为揭示LLMs认知边界、开发领域自适应训练策略提供了关键数据支撑，推动了可解释AI在数学教育中的应用研究。

衍生相关工作

基于该数据集的多模态分析催生了系列重要研究，如《数学领域大语言模型认知图谱构建》通过聚类算法揭示了模型在数论问题的系统性偏差。后续工作MathBERT-Proof利用该数据训练了数学证明验证器，而团队发表的对比学习框架CoT-Explorer则开创了链式推理的可视化评估范式，相关成果被ICLR等顶会收录。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集