SKYLENAGE-ReasoningMath

github2025-09-28 更新2025-09-29 收录

下载链接：

https://github.com/alibaba/SKYLENAGE-ReasoningMath

下载链接

链接失效反馈

官方服务：

资源简介：

SKYLENAGE-ReasoningMath（推理数学评测集）覆盖从基础算术到高等数学的多层次推理任务，涵盖逻辑推导、代数变换、几何分析、概率统计等多个维度，旨在评估模型在结构化数学问题中的理解、推理与解答能力。数据集设计注重问题难度分级与认知层次划分，支持细粒度的能力评估。

SKYLENAGE-ReasoningMath, a mathematics reasoning evaluation dataset, encompasses multi-level reasoning tasks ranging from basic arithmetic to advanced mathematics, covering dimensions such as logical deduction, algebraic transformation, geometric analysis, probability and statistics. It aims to evaluate a model's abilities in understanding, reasoning and solving structured mathematical problems. The dataset design focuses on question difficulty grading and cognitive hierarchy division, supporting fine-grained capability assessment.

创建时间：

2025-09-18

原始信息汇总

SKYLENAGE-ReasoningMath 数据集概述

数据集简介

SKYLENAGE-ReasoningMath（推理数学评测集）覆盖从基础算术到高等数学的多层次推理任务，涵盖逻辑推导、代数变换、几何分析、概率统计等多个维度，旨在评估模型在结构化数学问题中的理解、推理与解答能力。

数据集构成

主要数据文件：ReasoningMath.json，包含100道题目，涵盖序号、难度、学科分类、题目和最终解答
补充文件：部分题目附录.xlsx，包含30道题目的思维链分析标准和解题分析标准
技术文档：SKYLENAGE Technical Report.pdf技术报告

核心特性

直觉逻辑任务：涉及非标准化的多角色、多约束推理，表述形式多样、解法路径不固定
数论组合问题：强调构造性思维与数学直觉，而非公式套用
空间推理任务：依赖对二维/三维结构的内在建模，以文本片段呈现空间推理任务

设计目标

突破当前主流评测中"重计算、轻逻辑""重结果、轻过程"的局限
聚焦在通用训练语料中覆盖不足的高阶推理任务
避免数据污染与记忆化作答问题，选择互联网文本中低频任务类型

模型评测结果

模型名称	准确率
GPT-5-20250807	81
Qwen3-235B-A22B-2507	79
Grok-4-0709	75
GPT-oss-120b	69
Gemini2.5-Pro-0617	69

获取方式

魔搭社区：https://modelscope.cn/datasets/Alibaba-DT/SKYLENAGE-ReasoningMATH
Huggingface：https://huggingface.co/datasets/alibabagroup/SKYLENAGE-ReasoningMath

联系信息

官方网站：https://skylenage.alibaba-inc.com/sla/home
联系邮箱：skylenage@service.alibaba.com

搜集汇总

数据集介绍

构建方式

在数学推理评估领域，SKYLENAGE-ReasoningMath数据集的构建采用分层设计理念，涵盖从基础算术到高等数学的多元认知层次。该数据集通过精心筛选100道题目，每道题均标注难度系数与学科分类，并配备完整解题过程。为规避数据污染问题，构建策略刻意选择互联网文本中低频出现的直觉逻辑与数论组合类题型，确保题目表述形式的多样性与解题路径的非固定性。

特点

该数据集显著特点在于突破传统数学评估重计算轻逻辑的局限，聚焦直觉逻辑、数论组合与空间推理三类高阶认知任务。题目设计强调构造性思维与空间结构建模能力，其文本化呈现的几何问题要求模型进行抽象转化。通过难度分级与认知维度划分，支持对模型推理过程的细粒度评估，有效区分机械记忆与深层推理能力。

使用方法

研究者可通过解析ReasoningMath.json文件获取完整题目与解答，其中包含序号、难度标签及学科分类等结构化信息。配套提供的30道题目附录详细记录思维链分析标准与解题规范，适用于验证模型推理路径的合理性。技术报告则系统阐述评估框架设计原理，支持跨模型性能对比研究。

背景与挑战

背景概述

随着人工智能在数学推理领域的发展，阿里巴巴集团于2024年推出了SKYLENAGE-ReasoningMath数据集，旨在系统评估大语言模型在结构化数学问题中的理解与推理能力。该数据集覆盖从基础算术到高等数学的多层次任务，包括逻辑推导、代数变换、几何分析等维度，通过难度分级与认知层次划分，为模型能力提供细粒度评估框架。其设计突破了传统评测中重计算轻逻辑的局限，聚焦于抽象思维的高阶挑战，对推动数学推理人工智能的研究具有重要影响力。

当前挑战

该数据集致力于解决数学推理领域的关键问题，即模型在直觉逻辑、数论组合与空间推理等任务中表现出的抽象思维不足，这些任务在通用训练语料中覆盖有限，难以通过记忆或模式匹配完成。构建过程中，团队面临数据污染与记忆化作答的挑战，通过选择低频题型和多样化表述形式来规避常见问题；同时，数论组合问题强调构造性思维，而空间推理任务需以文本形式呈现复杂结构，增加了数据采集与标准化的难度。

常用场景

经典使用场景

在人工智能数学推理研究领域，SKYLENAGE-ReasoningMath数据集被广泛用于评估大语言模型在复杂数学问题上的推理能力。该数据集通过涵盖从基础算术到高等数学的多层次任务，包括逻辑推导、代数变换、几何分析等维度，为研究者提供了系统性的评测基准。模型在该数据集上的表现能够直观反映其数学理解和逻辑推理的深度，成为衡量人工智能数学能力的重要标尺。

实际应用

在实际应用层面，SKYLENAGE-ReasoningMath为教育科技和智能辅导系统提供了重要支撑。基于该数据集训练的模型能够更好地理解学生的解题思路，提供个性化的数学学习指导。同时，在金融分析、工程计算等需要复杂数学推理的领域，具备强大数学推理能力的AI系统能够辅助专业人士进行更精准的决策分析，提升行业智能化水平。

衍生相关工作

围绕该数据集已衍生出多项重要研究工作，各大研究机构纷纷基于其评测框架开发新的数学推理模型。从排行榜可见，GPT-5、Qwen3、Grok-4等先进模型都在此基础上进行了针对性优化。这些工作不仅推动了模型在数学推理能力上的突破，还促进了思维链分析、解题过程评估等细分研究方向的发展，形成了完整的数学推理评测生态体系。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集