archive_big_BIG-MATH_leftover

Hugging Face2026-05-20 更新2026-05-21 收录

下载链接：

https://huggingface.co/datasets/Jongbin-kr/archive_big_BIG-MATH_leftover

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集是通过对原始大型数学问题数据集 SynthLabsAI/Big-Math-RL-Verified 进行预处理后得到的子集，旨在解决原始数据集的规模庞大和类别不平衡问题。处理过程包括将原始数学问题的7个领域重新归类为5个核心数学类别：代数（algebra）、几何（geometry）、统计与概率（statistics_and_probability）、微积分与预微积分（calculus_and_precalculus）、数论与离散数学（number_theory_and_discrete_math）。基于此，生成了两个独立的数据集：BIG-MATH_filtered 和 BIG-MATH_leftover。BIG-MATH_filtered 仅包含被明确标记为单一类别的数学问题样本，并已按10:1:1的比例划分为训练集、验证集和测试集，适用于需要清晰类别划分的监督学习任务，如数学问题分类或特定领域的数学推理模型训练。BIG-MATH_leftover 包含所有未被纳入 filtered 数据集的剩余样本，主要包括那些被标记为多个类别的数学问题，未进行划分，适用于探索性分析或需要处理模糊类别问题的场景。两个数据集共享相同的核心字段结构，每个样本包含：数学问题文本（`problem`）、对应的答案（`answer`）、数据来源（`source`）、原始领域标签（`original_domain`）、新归类的类别标签（`category`），以及一个反映特定语言模型（Llama 8B）解题率的指标（`llama8b_solve_rate`）。该数据集适用于数学教育、自动解题、大型语言模型在数学领域的评估与微调等研究与应用。

This dataset is a subset obtained through preprocessing of the original large-scale mathematical problem dataset SynthLabsAI/Big-Math-RL-Verified, aiming to address the issues of large scale and class imbalance in the original dataset. The processing involves reclassifying the original 7 domains of mathematical problems into 5 core mathematical categories: algebra, geometry, statistics_and_probability, calculus_and_precalculus, and number_theory_and_discrete_math. Based on this, two independent datasets are generated: BIG-MATH_filtered and BIG-MATH_leftover. BIG-MATH_filtered contains only mathematical problem samples explicitly labeled with a single category and has been divided into training, validation, and test sets in a 10:1:1 ratio, suitable for supervised learning tasks requiring clear category distinctions, such as mathematical problem classification or training models for specific domain mathematical reasoning. BIG-MATH_leftover includes all remaining samples not incorporated into the filtered dataset, primarily those labeled with multiple categories, and is not divided, suitable for exploratory analysis or scenarios requiring handling of ambiguous category problems. Both datasets share the same core field structure, with each sample containing: mathematical problem text (`problem`), corresponding answer (`answer`), data source (`source`), original domain label (`original_domain`), newly classified category label (`category`), and an indicator reflecting the problem-solving rate of a specific language model (Llama 8B) (`llama8b_solve_rate`). This dataset is applicable to research and applications in mathematical education, automatic problem-solving, and evaluation and fine-tuning of large language models in the mathematical field.

创建时间：

2026-05-19

搜集汇总

数据集介绍

构建方式

archive_big_BIG-MATH_leftover数据集的构建源于对原始SynthLabsAI/Big-Math-RL-Verified数据集的深度再加工。该过程首先将原始数据中七个数学领域类别——代数、几何、统计与概率、微积分、预备微积分、数论与离散数学，通过预设的合并映射规则整合为五个大类。随后，根据每条样本所属类别的数量进行分流：仅包含单一类别的样本被归入BIG-MATH_filtered子集，而涵盖多个类别（即多标签）的样本则被完整保留并汇集为archive_big_BIG-MATH_leftover。最终，该数据集以HuggingFace Dataset格式存储，包含problem、answer、source、original_domain、category及llama8b_solve_rate六个字段，共计91,377条训练样本。

使用方法

使用者可通过HuggingFace的datasets库直接加载该数据集，例如使用load_dataset('Jongbin-kr/BIG-MATH_leftover', split='train')命令即可获取全部91,377条训练样本。数据以标准键值对结构呈现，其中problem字段为数学问题文本，answer为正确答案，category则存储了该问题涉及的一个或多个数学领域标签（以列表形式给出）。在模型训练或评估时，建议针对多标签特性设计特定的损失函数或评估指标，例如基于多标签分类的准确率或F1分数。此外，llama8b_solve_rate字段可作为辅助特征，用于筛选特定难度层级的样本或分析大型语言模型在不同复杂度问题上的表现差异。

背景与挑战

背景概述

在人工智能与数学推理交叉研究领域，高质量、大规模且领域标注精细的数学问题数据集是推动大语言模型数学能力发展的关键基石。BIG-MATH_leftover数据集由韩国研究人员Jongbin于2024年发起，作为Big-Math-RL-Verified数据集的衍生产品，由SynthLabsAI团队原始构建。该数据集聚焦于数学问题解答任务，其核心研究问题在于如何通过强化学习验证大模型在多类别数学推理中的表现。通过对原始7个数学领域重构为代数、几何、统计与概率、微积分与预微积分、数论与离散数学5大核心类别，该数据集为评估模型跨领域泛化能力提供了精细化的标注资源。其影响力体现在填补了多标签数学问题数据集的空白，为数学推理的细粒度研究奠定了数据基础。

当前挑战

该数据集所面临的挑战从领域问题层面看，数学推理任务本身具有高度的抽象性和逻辑链条的复杂性，现有模型在面对多领域交叉的多标签问题时常常出现知识混淆与推理断裂。数据集的构建过程同样充满挑战：原始数据中超过91,000个样本呈现出显著的类别不均衡现象，单标签样本的稀少使得模型难以学习领域间的共性特征。为应对这一问题，研究团队不得不设计精细的类别合并与筛选策略，将7个领域压缩至5个，并严格分离出单标签样本（filtered）与多标签样本（leftover），这一过程中如何平衡数据量的损失与标注质量的保持成为构建的核心难题。

常用场景

经典使用场景

在数学推理与人工智能的交叉领域中，archive_big_BIG-MATH_leftover数据集以其独特的单标签与多标签混合结构，为细粒度数学问题分类与推理研究提供了珍贵资源。该数据集源自Big-Math-RL-Verified，经过去重与类别映射后，保留了跨域混合的数学问题样本，特别适用于探究多类别数学知识在问题表述中的交织规律。其经典使用场景包括：训练鲁棒的多标签数学分类模型、评估大语言模型在复杂代数、几何、概率统计等领域的零样本推理能力，以及作为对比基线，分析单样本多域问题对模型泛化性能的影响。数据集中每个样本均包含原始问题、标准答案、来源标注及大模型解决率等字段，为可重复的数学推理实验提供了标准化基础。

解决学术问题

该数据集精准回应了当前数学推理研究中两个关键痛点：一是现有数据集多为单类别划分，难以反映真实数学问题中知识域的复合性；二是缺乏针对大语言模型在混合领域数学推理能力的系统性评估基准。通过整合代数、几何、概率统计、微积分与数论等范畴，它将研究焦点从孤立的单域问题解决，拓展至跨域知识迁移与多源推理路径的探索。这一设计不仅推动了多标签分类算法在数学教育领域的理论发展，还为分析模型在不同数学子领域间的泛化壁垒提供了实证依据。该数据集的意义在于，它启发了研究者重新审视数学推理的层级结构，催生了关于思维链提示在跨域问题中效能边界的深入讨论。

实际应用

在实际应用层面，该数据集为智能教育系统与自适应学习平台的构建注入了新动能。其多标签特性使得教育科技从业者能够开发出更精准的知识点诊断工具：当学生解答一道同时涉及概率统计与代数的问题时，系统可借此数据集训练的模型，识别其薄弱环节究竟是计算能力不足，还是概率思维欠缺。此外，数据集中包含的大模型解决率字段，为自动化作业批改与智能辅导系统提供了可靠的难度标定参考。在课程内容编排场景中，该数据集也能辅助生成跨章节的综合练习题，推动从碎片化知识点训练向综合数学素养培养的转变。数学竞赛训练平台亦可利用其中的混合域问题，设计更具挑战性的思维拓展任务。

数据集最近研究