aqua_rat_cls

Hugging Face2025-08-26 更新2025-08-28 收录

下载链接：

https://huggingface.co/datasets/yangguangzhaojjj/aqua_rat_cls

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个数学问题分类数据集，包含问题、选项、解答理由、正确答案和问题类别。数据集分为10个子集，每个子集包含8860个示例，总共覆盖了概率与统计、数论与整数的性质、代数与方程、比率、百分比与比例应用、平均数与数据分析、几何与测量、时间、速度与距离、工作与效率问题、数列与级数、以及文字问题与逻辑推理等多个数学领域。

创建时间：

2025-08-25

原始信息汇总

数据集概述：aqua_rat_cls

数据集基本信息

数据集名称：aqua_rat_cls
下载大小：44,067,029 字节
数据集大小：78,412,866 字节

数据结构

特征

question（字符串）：问题文本
options（字符串序列）：选项列表
rationale（字符串）：推理过程
correct（字符串）：正确答案
cls（int64）：分类标签

数据划分

子集划分（各含8,860个样本）

subset_0（3,893,189字节）
subset_1（3,920,654字节）
subset_2（3,926,382字节）
subset_3（3,914,149字节）
subset_4（3,907,629字节）
subset_5（3,907,365字节）
subset_6（3,975,057字节）
subset_7（3,927,202字节）
subset_8（3,951,546字节）
subset_9（3,883,260字节）

分类划分

cls_1：7,125个样本（3,659,232字节）
cls_2：4,673个样本（1,793,067字节）
cls_3：15,207个样本（6,259,304字节）
cls_4：19,502个样本（7,941,311字节）
cls_5：6,089个样本（2,914,902字节）
cls_6：4,462个样本（1,864,162字节）
cls_7：12,722个样本（6,057,885字节）
cls_8：7,087个样本（3,335,315字节）
cls_9：9,275个样本（4,244,988字节）
cls_10：2,458个样本（1,136,267字节）

数学主题分类

概率与统计：古典概率、条件概率、排列组合、抽样、期望值、方差、标准差、正态分布、集中趋势
数论与整数性质：整数运算、奇偶性、质数与合数、因数倍数、最大公约数、最小公倍数、模运算、余数问题
代数与方程：线性方程、二次方程、多项式、有理表达式、根式、指数、对数、绝对值方程、代数恒等式
比率、百分比与比例应用：比例分配、混合浓度、百分比增减、利润亏损、快速估算
平均数与数据分析：简单平均、加权平均、均值调整、图表解读
几何与测量：平面几何、立体几何、坐标几何
时间、速度与距离：相对运动、平均速度、火车桥梁问题、环形轨道
工作与效率问题：协作工作、管道水池问题、交替工作
数列与级数：等差数列、等比数列、递归数列、斐波那契数列
文字问题与逻辑推理：实际应用问题、集合论、逻辑演绎、多步骤问题求解

搜集汇总

数据集介绍

构建方式

在数学推理与分类研究领域，aqua_rat_cls数据集基于AQUA-RAT数学问题集构建，通过系统化标注将题目划分为十个细粒度类别。构建过程涵盖题目解析、选项提取与分类标注，每个样本包含问题文本、选项序列、推理过程和正确答案，并附带类别标签。数据划分为多个子集和类别分块，确保类别平衡与分布合理性，整体规模达七万余样本，为数学智能研究提供结构化基础。

特点

该数据集突出多类别数学问题覆盖，涵盖概率统计、数论、代数、几何等十类核心数学领域，每类具明确知识定义与题型特征。样本结构完整，包含问题、多选项、推理解释与正确答案，支持分类与推理双重任务。数据划分兼顾随机子集与类别分组，便于模型训练与评估，兼具规模性与多样性，适用于复杂数学推理与学科知识建模研究。

使用方法

使用者可加载指定子集或类别分块进行任务适配，如选取subset_0至9用于通用训练，或cls_1至10进行类别专项分析。数据字段支持端到端分类模型训练，亦可提取rationale字段用于推理生成任务。评估时需注意类别分布差异，建议采用交叉验证或分类别指标计算，以全面反映模型在异构数学问题上的性能。

背景与挑战

背景概述

数学推理数据集aqua_rat_cls由研究团队构建，专注于数学问题求解与分类任务。该数据集涵盖概率统计、数论、代数、几何等十大数学领域，旨在推动自动数学推理与教育智能化发展。通过提供问题、选项、解析及分类标签，该数据集为机器学习模型提供了结构化训练资源，显著促进了数学智能系统的性能提升与跨领域应用。

当前挑战

该数据集核心挑战在于解决数学问题的多步骤推理与领域分类复杂性，要求模型同时掌握符号运算与语义理解。构建过程中需应对标注一致性难题，包括解析逻辑的准确性与分类体系的科学性，同时需平衡不同数学领域的样本分布以确保泛化能力。

常用场景

经典使用场景

在数学推理与问题求解研究领域，aqua_rat_cls数据集被广泛用于训练和评估机器学习模型在数学应用题自动解答方面的能力。该数据集通过提供包含问题陈述、选项列表、解题思路和正确答案的完整样本，为模型学习数学推理过程提供了丰富素材。研究者通常利用该数据集开发能够理解自然语言描述的数学问题、生成解题步骤并最终选择正确答案的智能系统，特别是在多步骤推理和跨领域知识整合方面展现出重要价值。

衍生相关工作

该数据集衍生出了一系列重要的研究工作，特别是在数学问题自动求解和推理模型构建方面。基于aqua_rat_cls数据集，研究者开发了多种神经网络架构，如结合语义解析与符号计算的混合模型，以及集成注意力机制和记忆网络的推理系统。这些工作不仅提升了数学问题求解的准确率，还推动了可解释推理模型的发展。相关研究成果已应用于智能教育助手和专业培训系统，形成了从学术研究到实际应用的完整创新链条。

数据集最近研究