five

s1K

收藏
github2025-02-03 更新2025-02-10 收录
下载链接:
https://github.com/simplescaling/s1
下载链接
链接失效反馈
官方服务:
资源简介:
仓库中未提供数据集的中文名称描述,需要翻译

The Chinese name description of the dataset is not provided in the repository, and translation is required.
创建时间:
2025-02-01
原始信息汇总

s1: Simple test-time scaling 数据集概述

数据集简介

s1 数据集是一个用于测试时缩放和强化推理性能的最小化方案,它使用仅1,000个示例和预算强制与o1-preview相匹配。

关键链接

数据集结构

  • eval/: 评估脚本
  • data/: 合成数据创建脚本及相关文件
  • train/: 训练脚本

推断方法

  • vLLM: 使用vLLM库进行推理
  • vLLM with budget forcing: 使用预算强制进行推理
  • transformers: 使用transformers库进行推理

训练

使用train/sft.py脚本进行训练,可以通过train/sft*sh脚本调用,如果使用SLURM集群,可以通过train/launch.sh启动。

评估

使用修改过的lm-evaluation-harness进行评估。所有评估结果文件位于https://hf.co/datasets/simplescaling/results

数据

要重新创建数据,需要运行data/collect_data.py,然后是data/fix_gpqa.pydata/add_aime.py来收集问题。

可视化

所有图表和表格通过这个colab创建,相当于visuals/visuals.ipynb

已知问题

  • vLLM可能会抛出ValueError: Token id XXXXX is out of vocabulary错误,特别是在运行温度为1的预算强制时。

引用

bibtex @misc{muennighoff2025s1simpletesttimescaling, title={s1: Simple test-time scaling}, author={Niklas Muennighoff and Zitong Yang and Weijia Shi and Xiang Lisa Li and Li Fei-Fei and Hannaneh Hajishirzi and Luke Zettlemoyer and Percy Liang and Emmanuel Candès and Tatsunori Hashimoto}, year={2025}, eprint={2501.19393}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2501.19393}, }

搜集汇总
数据集介绍
main_image_url
构建方式
s1K数据集的构建主要通过合成数据脚本来完成,涉及数据收集、问题修复以及特定任务的数据增强。具体而言,数据构建包括运行`collect_data.py`来收集问题,随后通过`fix_gpqa.py`和`add_aime.py`脚本来修正数据和增加特定任务的数据。这一过程确保了数据集在质量和适用性方面的精准度。
使用方法
使用s1K数据集首先需要安装相应的库,如vLLM和transformers。之后,用户可以通过执行数据集提供的脚本来进行训练和评估。例如,运行`train/sft.sh`脚本来启动训练过程,而评估则可以通过`eval/commands.sh`中的命令来完成。此外,数据集还提供了用于生成推理和评估的可视化工具和代码。
背景与挑战
背景概述
s1K数据集的研究背景源于对测试时缩放和推理性能的探索,旨在通过仅1000个示例和预算强制手段,实现与o1-preview相当的性能。该数据集及相关研究由Niklas Muennighoff等人开展,并在2025年以论文形式发表。研究核心问题是如何在有限的样本和预算条件下,通过测试时的缩放策略,提升模型的推理性能。该研究及其数据集对自然语言处理领域,尤其是在模型压缩和推理优化方面,产生了重要影响。
当前挑战
s1K数据集在构建过程中面临的挑战主要包括:如何在有限的样本集上训练出能够进行有效推理的模型,以及如何在预算限制下保持模型的性能。具体挑战体现在:1) 数据集规模较小,需要精心设计模型架构和训练策略以实现高性能;2) 预算限制要求模型在有限的资源消耗下完成推理任务,这对模型的优化和压缩提出了更高的要求。
常用场景
经典使用场景
s1K数据集专为测试时缩放而设计,其经典使用场景在于通过仅1000个样本实现推理性能的匹配,同时采用预算强制策略,以达到对o1-preview的推理性能。该数据集通过合成数据的方式,为研究者在测试时缩放领域提供了强有力的支撑,使得模型能在有限的样本条件下,实现高效的推理性能。
解决学术问题
s1K数据集解决了学术研究中在样本数量有限的情况下,如何提高模型推理性能的问题。它通过简单的测试时缩放方法,使得模型能够在仅有1000个样本的情况下,匹配到o1-preview的性能,这对于降低模型对大量训练样本的依赖,提高模型的泛化能力具有重要的意义和影响。
实际应用
在实际应用中,s1K数据集可用于开发那些需要在资源受限的环境下运行的推理系统,例如移动设备或嵌入式系统。其轻量级的设计使得模型可以在这些环境中实现高效的性能,同时保持较低的内存和计算资源消耗。
数据集最近研究
最新研究方向
s1K数据集近期研究聚焦于测试时缩放(test-time scaling)的简约方案,通过仅使用1000个示例实现与o1-preview相当推理性能的匹配,并引入预算强制策略。该研究通过vLLM和transformers两种方法进行推理,探讨了在不同场景下模型的表现,为自然语言处理领域提供了新的视角和深入的理解。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作