s1K
收藏s1: Simple test-time scaling 数据集概述
数据集简介
s1 数据集是一个用于测试时缩放和强化推理性能的最小化方案,它使用仅1,000个示例和预算强制与o1-preview相匹配。
关键链接
数据集结构
eval/: 评估脚本data/: 合成数据创建脚本及相关文件train/: 训练脚本
推断方法
- vLLM: 使用vLLM库进行推理
- vLLM with budget forcing: 使用预算强制进行推理
- transformers: 使用transformers库进行推理
训练
使用train/sft.py脚本进行训练,可以通过train/sft*sh脚本调用,如果使用SLURM集群,可以通过train/launch.sh启动。
评估
使用修改过的lm-evaluation-harness进行评估。所有评估结果文件位于https://hf.co/datasets/simplescaling/results。
数据
要重新创建数据,需要运行data/collect_data.py,然后是data/fix_gpqa.py和data/add_aime.py来收集问题。
可视化
所有图表和表格通过这个colab创建,相当于visuals/visuals.ipynb。
已知问题
- vLLM可能会抛出
ValueError: Token id XXXXX is out of vocabulary错误,特别是在运行温度为1的预算强制时。
引用
bibtex @misc{muennighoff2025s1simpletesttimescaling, title={s1: Simple test-time scaling}, author={Niklas Muennighoff and Zitong Yang and Weijia Shi and Xiang Lisa Li and Li Fei-Fei and Hannaneh Hajishirzi and Luke Zettlemoyer and Percy Liang and Emmanuel Candès and Tatsunori Hashimoto}, year={2025}, eprint={2501.19393}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2501.19393}, }




