s1K

github2025-02-03 更新2025-02-10 收录

下载链接：

https://github.com/simplescaling/s1

下载链接

链接失效反馈

官方服务：

资源简介：

仓库中未提供数据集的中文名称描述，需要翻译

The Chinese name description of the dataset is not provided in the repository, and translation is required.

创建时间：

2025-02-01

原始信息汇总

s1: Simple test-time scaling 数据集概述

数据集简介

s1 数据集是一个用于测试时缩放和强化推理性能的最小化方案，它使用仅1,000个示例和预算强制与o1-preview相匹配。

关键链接

论文: s1: Simple test-time scaling
模型: https://hf.co/simplescaling/s1-32B
数据集:
- s1K
- s1-prob
- s1-teasers
- Full 59K

数据集结构

eval/: 评估脚本
data/: 合成数据创建脚本及相关文件
train/: 训练脚本

推断方法

vLLM: 使用vLLM库进行推理
vLLM with budget forcing: 使用预算强制进行推理
transformers: 使用transformers库进行推理

训练

使用train/sft.py脚本进行训练，可以通过train/sft*sh脚本调用，如果使用SLURM集群，可以通过train/launch.sh启动。

评估

使用修改过的lm-evaluation-harness进行评估。所有评估结果文件位于https://hf.co/datasets/simplescaling/results。

数据

要重新创建数据，需要运行data/collect_data.py，然后是data/fix_gpqa.py和data/add_aime.py来收集问题。

可视化

所有图表和表格通过这个colab创建，相当于visuals/visuals.ipynb。

已知问题

vLLM可能会抛出ValueError: Token id XXXXX is out of vocabulary错误，特别是在运行温度为1的预算强制时。

引用

bibtex @misc{muennighoff2025s1simpletesttimescaling, title={s1: Simple test-time scaling}, author={Niklas Muennighoff and Zitong Yang and Weijia Shi and Xiang Lisa Li and Li Fei-Fei and Hannaneh Hajishirzi and Luke Zettlemoyer and Percy Liang and Emmanuel Candès and Tatsunori Hashimoto}, year={2025}, eprint={2501.19393}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2501.19393}, }

搜集汇总

数据集介绍

构建方式

s1K数据集的构建主要通过合成数据脚本来完成，涉及数据收集、问题修复以及特定任务的数据增强。具体而言，数据构建包括运行`collect_data.py`来收集问题，随后通过`fix_gpqa.py`和`add_aime.py`脚本来修正数据和增加特定任务的数据。这一过程确保了数据集在质量和适用性方面的精准度。

使用方法

使用s1K数据集首先需要安装相应的库，如vLLM和transformers。之后，用户可以通过执行数据集提供的脚本来进行训练和评估。例如，运行`train/sft.sh`脚本来启动训练过程，而评估则可以通过`eval/commands.sh`中的命令来完成。此外，数据集还提供了用于生成推理和评估的可视化工具和代码。

背景与挑战

背景概述

s1K数据集的研究背景源于对测试时缩放和推理性能的探索，旨在通过仅1000个示例和预算强制手段，实现与o1-preview相当的性能。该数据集及相关研究由Niklas Muennighoff等人开展，并在2025年以论文形式发表。研究核心问题是如何在有限的样本和预算条件下，通过测试时的缩放策略，提升模型的推理性能。该研究及其数据集对自然语言处理领域，尤其是在模型压缩和推理优化方面，产生了重要影响。

当前挑战

s1K数据集在构建过程中面临的挑战主要包括：如何在有限的样本集上训练出能够进行有效推理的模型，以及如何在预算限制下保持模型的性能。具体挑战体现在：1) 数据集规模较小，需要精心设计模型架构和训练策略以实现高性能；2) 预算限制要求模型在有限的资源消耗下完成推理任务，这对模型的优化和压缩提出了更高的要求。

常用场景

经典使用场景

s1K数据集专为测试时缩放而设计，其经典使用场景在于通过仅1000个样本实现推理性能的匹配，同时采用预算强制策略，以达到对o1-preview的推理性能。该数据集通过合成数据的方式，为研究者在测试时缩放领域提供了强有力的支撑，使得模型能在有限的样本条件下，实现高效的推理性能。

解决学术问题

s1K数据集解决了学术研究中在样本数量有限的情况下，如何提高模型推理性能的问题。它通过简单的测试时缩放方法，使得模型能够在仅有1000个样本的情况下，匹配到o1-preview的性能，这对于降低模型对大量训练样本的依赖，提高模型的泛化能力具有重要的意义和影响。

实际应用

在实际应用中，s1K数据集可用于开发那些需要在资源受限的环境下运行的推理系统，例如移动设备或嵌入式系统。其轻量级的设计使得模型可以在这些环境中实现高效的性能，同时保持较低的内存和计算资源消耗。

数据集最近研究