SCOPE

Name: SCOPE
Creator: 南洋理工大学, 新加坡; Shopee Pte. Ltd, 新加坡; SEA Group, 新加坡
Published: 2025-05-20 22:31:15
License: 暂无描述

arXiv2025-05-20 更新2025-05-22 收录

下载链接：

https://github.com/Anna7355/SCOPE

下载链接

链接失效反馈

官方服务：

资源简介：

SCOPE数据集由南洋理工大学、Shopee和SEA Group的研究人员创建，包含196,000个数学推理样本，每个样本都有1.4M个步骤级别的标签。该数据集通过SCOPE方法构建，该方法将自然语言推理步骤转换为代码并标准化，然后合并等效步骤以构建前缀树。SCOPE数据集旨在解决现有过程标注方法计算成本高昂的问题，通过引入基于压缩的方法，将计算复杂性从O(NMK)降低到O(N)。SCOPE数据集已证明，在Best-of-N策略和ProcessBench 1等评估设置下，基于该数据集训练的PRM始终优于现有的自动标注方法。

提供机构：

南洋理工大学, 新加坡; Shopee Pte. Ltd, 新加坡; SEA Group, 新加坡

创建时间：

2025-05-20

原始信息汇总

SCOPE数据集概述

环境配置

Python版本：3.10
依赖库：
- torch
- flash-attn
- vllm
- requirements.txt中列出的其他依赖

模型训练流程

生成响应
- 执行脚本：generate_response.py
生成代码
- 执行脚本：generate_code.py
代码压缩
- 执行脚本：code_process.py
- 参数：
  - --code_path：代码路径
  - --use_code：使用代码
  - --use_ast：使用AST
训练模型
- 执行命令：accelerate launch --config_file configs/accelerate_config.yaml train_reward.py

评估

BON评估

为每个响应生成步骤奖励
- 执行脚本：gen_reward.py
- 参数：
  - --model_path：模型路径
  - --tokenizer_path：Qwen/Qwen2.5-Math-7B-Instruct
评估BON
- 执行脚本：prm_maj_eval.py
- 参数：
  - --model_name：模型名称

ProcessBench评估

执行脚本：run_eval_our.py
参数：
- --model_path：模型路径
- --tokenizer_path：Qwen/Qwen2.5-Math-7B-Instruct
- --output_dir：输出目录

搜集汇总

数据集介绍

构建方式

在数学推理领域，SCOPE数据集的构建采用了创新的三步压缩范式。首先利用代码大语言模型将自然语言推理步骤转化为可执行Python代码，随后通过抽象语法树(AST)对代码进行标准化处理（包括变量重命名、操作标准化等），最后将数学等价的步骤合并构建前缀树结构。该方法将传统基于蒙特卡洛模拟的O(NMK)复杂度降低至线性复杂度O(N)，仅需5%的计算资源即可构建包含19.6万样本的大规模数据集。

使用方法

该数据集主要支持两种过程奖励模型(PRM)的训练范式：基于硬估计的二元交叉熵损失和基于软估计的均方误差损失。在使用时，研究者可通过遍历前缀树获取每个节点的Q值（正确解通过该节点的比例），根据需求选择将Q值二值化（>0标记为1）或直接作为连续标签。实验表明，硬标签策略在Best-of-8策略（提升0.3%）和ProcessBench（提升1.6%）上均优于软标签，建议优先采用二元分类训练方式。数据集已开源，包含完整的代码转换提示模板和AST标准化实现细节。

背景与挑战

背景概述

SCOPE数据集由新加坡南洋理工大学和Shopee Pte. Ltd的研究团队于2025年提出，旨在解决数学推理任务中过程奖励模型（PRMs）的自动标注问题。该数据集通过创新的步骤压缩技术，将自然语言推理步骤转化为代码并利用抽象语法树（AST）进行归一化处理，显著降低了传统蒙特卡洛模拟方法的高计算成本。SCOPE构建了包含19.6万样本的大规模数据集，仅需传统方法5%的计算资源，推动了数学推理领域高效标注技术的发展。

当前挑战

SCOPE数据集面临的核心挑战体现在两个维度：领域问题方面，传统PRMs训练依赖人工标注或蒙特卡洛模拟，存在计算复杂度高（O(NMK)）和数据浪费的问题；构建过程方面，步骤等价性识别成为技术难点，直接字符串匹配过于严格，而编辑距离和句子嵌入难以捕捉数学推理的细微差异。研究团队通过代码转换和AST归一化的三阶段处理（自然语言转代码、AST标准化、前缀树合并）应对这些挑战，但代码翻译的可靠性（特别是复杂数学概念的转换）和数学运算覆盖范围（如高等数学运算）仍存在优化空间。

常用场景

经典使用场景

SCOPE数据集在数学推理任务中展现出卓越的应用价值，特别是在自动化过程奖励模型（PRMs）的训练数据标注领域。通过将自然语言推理步骤转化为代码并利用抽象语法树（AST）进行归一化处理，该数据集显著降低了传统人工标注或蒙特卡洛模拟方法的高昂计算成本。其经典使用场景包括数学问题求解的逐步推理验证，以及复杂数学表达式的自动化分析与评估。

解决学术问题

SCOPE数据集有效解决了数学推理领域两个关键学术问题：过程奖励模型训练数据的高成本标注难题，以及传统模拟方法存在的计算资源浪费问题。通过创新的步骤压缩技术，该数据集将标注复杂度从O(NMK)降至O(N)，仅需5%的计算资源即可构建包含196K样本的大规模数据集。这一突破为数学推理模型的细粒度监督提供了可行方案，显著提升了过程评估的准确性与效率。

实际应用

在实际应用层面，SCOPE数据集已成功部署于教育科技和智能辅导系统。其核心价值体现在能够自动生成数学解题过程的细粒度评估指标，为自适应学习系统提供实时反馈。在商业数学软件集成中，该技术可自动验证用户输入的解题步骤正确性，大幅提升人机交互体验。此外，其代码转换机制也为跨语言数学表达式的标准化处理提供了新思路。

数据集最近研究