STOP-data

Hugging Face2026-04-19 更新2026-04-20 收录

下载链接：

https://huggingface.co/datasets/STOP-project/STOP-data

下载链接

链接失效反馈

官方服务：

资源简介：

STOP数据集是为训练和评估STOP（Super TOoken for Pruning）模块而构建的，该模块用于大型推理模型中的早期路径修剪。并行推理虽然能提高性能，但也带来了显著的效率问题，因为许多采样的推理路径从早期前缀开始就已经没有希望。该数据集提供了前缀-潜力监督，用于训练模型早期识别这些路径。数据构建方法如下：1) 生成并截断固定长度的推理前缀；2) 对每个前缀进行多次蒙特卡洛滚动采样；3) 通过正确完成的比例估计前缀的成功概率，生成[0,1]范围内的软标签。数据集涵盖数学（AIME）和科学（GPQA）领域，具有以下关键特性：前缀级监督用于早期修剪、模型特定的难度过滤、通过蒙特卡洛估计的概率标签。该数据集可用于训练轻量级分类器或适配器，以预测前缀质量并高效修剪推理路径。数据集采用Apache 2.0许可证。

The STOP Dataset is constructed for training and evaluating the STOP (Super Token for Pruning) module, which is designed for early path pruning in large-scale reasoning models. While parallel inference can boost performance, it also introduces significant efficiency issues, as many sampled inference paths are already hopeless starting from their early prefixes. This dataset provides prefix-potential supervision to train models to identify such paths at an early stage. The data construction method is as follows: 1) Generate and truncate fixed-length inference prefixes; 2) Perform multiple Monte Carlo rollout samplings for each prefix; 3) Estimate the success probability of the prefix through the proportion of correctly completed paths, generating soft labels within the range [0, 1]. The dataset covers two domains: mathematics (AIME) and science (GPQA), and has the following key features: prefix-level supervision for early pruning, model-specific difficulty filtering, and probability labels estimated via Monte Carlo methods. This dataset can be used to train lightweight classifiers or adapters to predict prefix quality and efficiently prune inference paths. The dataset is licensed under the Apache 2.0 License.

创建时间：

2026-04-17

原始信息汇总

数据集概述

数据集名称

STOP-data

核心目的

为训练和评估STOP (Super TOken for Pruning) 模块提供数据支持。STOP是一个用于大型推理模型中早期路径剪枝的轻量级模块。

数据构建方法

前缀生成：生成推理前缀，并在固定长度（例如2048个标记）处截断。
蒙特卡洛推演：为每个前缀采样多个（例如K=32）延续路径。
前缀评分：根据成功完成路径的数量与总采样路径数（K）的比值，估算前缀的成功概率，生成一个介于[0, 1]之间的软标签，用于指示前缀的潜力。

数据领域

数据构建基于以下领域：

数学（AIME）
科学（GPQA）

关键特性

提供用于早期剪枝的前缀级监督。
包含基于模型特定难度的过滤。
通过蒙特卡洛估计生成概率标签。

用途

该数据集可用于训练轻量级分类器或适配器，以预测前缀质量并高效地剪枝推理路径。

许可证

Apache 2.0

搜集汇总

数据集介绍

构建方式

在推理模型效率优化的研究背景下，STOP-data的构建采用了系统化的蒙特卡洛模拟方法。首先从数学与科学领域的问题中提取推理前缀，并将其截断至固定长度，随后对每个前缀进行多次随机延续采样，通过统计正确延续的比例来估计前缀的成功概率，从而生成带有概率标签的训练样本。

使用方法

STOP-data主要用于训练轻量级分类器或适配器模块，以预测推理前缀的质量并实现早期路径剪枝。研究人员可将其应用于大规模推理模型的效率优化实验，通过前缀潜在性评估来减少冗余计算，提升并行推理过程的整体性能。

背景与挑战

背景概述

随着大型推理模型在复杂任务中广泛应用，并行推理策略虽能提升性能，却带来了显著的计算冗余问题。许多采样路径在早期前缀阶段已显露出低潜力，导致资源浪费。为此，STOP-data数据集应运而生，由相关研究团队于近期构建，旨在通过前缀级监督训练轻量级模块，实现对推理路径的早期修剪。该数据集聚焦数学与科学领域，核心研究问题在于如何高效识别并终止无望的推理分支，从而优化模型效率，对推动可扩展推理技术的发展具有重要影响。

当前挑战

STOP-data数据集致力于解决推理路径早期修剪的挑战，即在并行推理中准确预测前缀的潜在成功率，以避免无效计算。构建过程中面临多重困难：其一，前缀生成需平衡长度与信息完整性，确保截断不影响后续评估；其二，蒙特卡洛滚动采样要求大量计算资源以估计概率标签，且采样数量直接影响标签可靠性；其三，领域数据如AIME和GPQA的复杂性增加了监督信号的获取难度，需精细设计难度过滤机制以保证数据质量。

常用场景

经典使用场景

在大型推理模型的并行推理过程中，STOP-data数据集被设计用于训练和评估STOP模块，以实现早期路径剪枝。该数据集通过提供前缀-潜力监督，使模型能够从推理路径的早期前缀中识别出无望的路径，从而在数学和科学领域（如AIME和GPQA）中优化推理效率。经典使用场景涉及利用蒙特卡洛滚动生成前缀并评估其成功概率，以训练轻量级分类器或适配器，有效减少不必要的计算开销。

解决学术问题

STOP-data数据集解决了并行推理中因采样多条路径而导致的效率低下问题，通过前缀级监督为早期路径剪枝提供数据支持。它帮助学术研究克服了大型模型在复杂推理任务（如数学解题和科学问答）中资源浪费的挑战，推动了轻量级模块在推理优化中的应用。这一数据集的意义在于促进了高效推理方法的发展，提升了模型在资源受限环境下的实用性，对人工智能领域的推理效率研究产生了积极影响。

实际应用

在实际应用中，STOP-data数据集可用于构建智能推理系统，特别是在需要快速响应的场景如在线教育平台或科学计算工具中。通过集成STOP模块，系统能够实时评估推理路径的潜力，提前终止低质量路径，从而加速问题解答过程并降低计算成本。这增强了模型在数学竞赛准备或专业科学咨询等领域的部署能力，实现了效率与性能的平衡。

数据集最近研究