RAG4Math/balanced_selection_candidates_reduced

Name: RAG4Math/balanced_selection_candidates_reduced
Creator: RAG4Math
Published: 2026-04-10 16:10:39
License: 暂无描述

Hugging Face2026-04-10 更新2026-04-12 收录

下载链接：

https://hf-mirror.com/datasets/RAG4Math/balanced_selection_candidates_reduced

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: id dtype: string - name: solution dtype: string - name: answer dtype: string - name: metadata struct: - name: competition dtype: string - name: dataset dtype: string - name: posts list: - name: attachments list: - name: name dtype: string - name: url dtype: string - name: content_bbcode dtype: string - name: content_html dtype: string - name: post_id dtype: int64 - name: post_number dtype: int64 - name: post_time_unix dtype: int64 - name: post_time_utc dtype: string - name: thanks_received dtype: int64 - name: user_id dtype: int64 - name: username dtype: string - name: source dtype: string - name: problem dtype: string - name: tags list: string - name: idea dtype: string - name: original_index dtype: int64 - name: domains list: string splits: - name: train num_bytes: 446415049 num_examples: 71117 download_size: 167138592 dataset_size: 446415049 configs: - config_name: default data_files: - split: train path: data/train-* ---

提供机构：

RAG4Math

搜集汇总

数据集介绍

构建方式

该数据集通过系统性地筛选与平衡策略构建而成，旨在为数学问题求解领域提供高质量的监督学习样本。基于原始竞赛数据集，结合论坛讨论、解题思路及答案等多元信息，选取其中结构完整且具有代表性的样本，并通过降采样或去重手段控制数据规模，最终形成包含约7.1万条训练样本的缩减版本。每条数据均涵盖问题文本、解决方案、答案、元数据（如来源、标签、所属领域）以及原始索引，确保信息维度丰富且组织有序。

特点

数据集以数学竞赛题目为核心，融合了问题、解答、答案及用户论坛互动内容（如帖子、感谢数等），形成多模态且富含上下文的样本。每个样本附带了标签与领域信息，便于按主题或难度进行筛选。通过保留原始索引和元数据，该数据集支持追溯来源与细粒度分析，同时缩减后的规模使其在保持领域代表性的同时，提升了训练与评估的效率。

使用方法

该数据集可直接用于训练和评估数学问题求解模型，尤其适合作为监督学习中的输入-输出对（问题与解答）。研究人员可按需访问'problem'字段作为输入，以'solution'或'answer'作为目标进行微调或评估。标签与领域字段可用于条件生成或多任务学习，元数据中的帖子内容则为研究解题过程中的用户互动提供了额外视角。数据集以HuggingFace Datasets格式加载，支持标准的训练集分割与批量迭代。

背景与挑战

背景概述

在编程竞赛与代码智能领域，数据集是驱动模型性能提升的关键基石。balanced_selection_candidates_reduced数据集由开放研究社区构建，旨在为代码生成与问题求解提供经过平衡筛选的训练样本。该数据集创建于近年来代码大模型蓬勃发展之际，核心研究问题聚焦于如何从海量竞赛编程数据中提取高质量、领域均衡的候选解，以提升模型在数学与算法推理任务上的泛化能力。数据集包含来自多个竞赛平台的7万余条样本，每条记录细致标注了问题描述、解决方案、答案标签以及元数据（如竞赛来源、用户讨论帖等）。其影响力在于为代码预训练与微调提供了更均衡、更具代表性的数据基础，促进了编程语言理解与符号推理的交叉研究。

当前挑战

该数据集面临的挑战首先体现在领域问题层面：编程竞赛数据天然存在标签噪音与难度分布不均，直接使用易导致模型对简单题过拟合、复杂题欠拟合，因此需在数据筛选中平衡不同难度与领域（如动态规划、图论）的代表性。其次，构建过程中遭遇多重困难：从原始论坛帖子中提取结构化解决方案时，需处理多格式正文（BBCode与HTML）、附件引用及时间戳异常；对话历史的完整性保障要求整合用户交互元数据（如感谢数、用户ID），但部分字段存在缺失或冗余；最终还需通过算法筛选确保每类问题的候选解数量相近，避免长尾领域被忽视，这涉及对71177条训练样本进行自动化质量评估与去重，计算开销与准确性难以两全。

常用场景

经典使用场景

在知识密集型的数学推理与问题解答领域，balanced_selection_candidates_reduced数据集凭借其精心组织的结构，成为评估和提升大语言模型在复杂竞赛数学题上表现的核心基准。该数据集汇聚了来自各类数学竞赛的问题、对应解决方案及最终答案，并辅以丰富的元数据，如竞赛来源、论坛讨论帖等。研究者常利用其训练和微调模型，使其掌握从自然语言问题描述到严谨符号推理的完整链条，尤其适用于考察模型对多步推理、数学逻辑和抽象概念的理解能力。

衍生相关工作

该数据集衍生了一系列具有深远影响的工作，尤其是在数学专用推理模型的开发上。例如，通过对该数据集的深入挖掘，催生了针对竞赛级数学问题（如IMO、CMO子集）的专项训练方案，推动了如Minerva、TheoremLlama等模型的进步。同时，它也促进了‘程序辅助语言模型’（PAL）等研究方向，其中模型被训练利用Python等外部代码工具来辅助其数学推理，有效缓解了纯文本推理的错误率。此外，该数据集还常被用于构建‘答案验证’与‘反向推理’任务，探索模型从结果反推过程的能力。

数据集最近研究