Sky-T1_data_17k

github2025-01-14 更新2025-01-15 收录

下载链接：

https://github.com/NovaSky-AI/SkyThought

下载链接

链接失效反馈

官方服务：

资源简介：

用于训练Sky-T1-32B-Preview模型的17k训练数据。数据集中还包括了来自STILL-2模型的科学和谜题部分。数据生成过程使用了QwQ-32B-Preview模型，并通过拒绝采样程序来提高数据质量。

The 17k training data samples are used for training the Sky-T1-32B-Preview model. This dataset also includes the science and puzzle sections sourced from the STILL-2 model. The data generation process utilized the QwQ-32B-Preview model, and rejection sampling procedures were adopted to improve the quality of the data.

创建时间：

2025-01-10

原始信息汇总

SkyThought 数据集概述

数据集基本信息

数据集名称: SkyThought
发布者: NovaSky-AI
发布日期: 2025年1月10日
数据集链接: Sky-T1_data_17k

数据集内容

数据规模: 17k 条训练数据
数据来源: 包含来自 STILL-2 模型的科学和谜题部分
数据用途: 用于训练 Sky-T1-32B-Preview 模型

数据集获取与使用

数据获取: 数据集可通过 HuggingFace 获取
数据生成: 使用 QwQ-32B-Preview 模型生成训练数据，并通过拒绝采样程序提高数据质量
训练脚本: 使用 Llama-Factory 进行训练，训练参数为 3 个 epoch，学习率 1e-5，批量大小 96

模型评估

评估基准: 数学、编程和科学领域的多个基准测试
评估结果:
- Math500: 82.4
- AIME2024: 43.3
- LiveCodeBench-Easy: 86.3
- LiveCodeBench-Medium: 56.8
- LiveCodeBench-Hard: 17.9
- GPQA-Diamond: 56.8

开源信息

数据: 开源
代码: 开源
报告: 开源
模型权重: 开源

引用

bibtex @misc{sky_t1_2025, author = {NovaSky Team}, title = {Sky-T1: Train your own O1 preview model within $450}, howpublished = {https://novasky-ai.github.io/posts/sky-t1}, note = {Accessed: 2025-01-09}, year = {2025} }

致谢

支持机构: Berkeley Sky Computing Lab
计算支持: Lambda Labs 和 Anyscale
学术支持: Still-2 Team 和 Qwen Team 的 Junyang Lin

搜集汇总

数据集介绍

构建方式

Sky-T1_data_17k数据集的构建过程体现了多领域数据融合与高质量筛选的理念。该数据集通过QwQ-32B-Preview模型生成初始数据，并结合科学和谜题领域的部分数据，进一步丰富了数据多样性。在数据筛选过程中，采用了拒绝采样技术，以确保数据的高质量。最终，数据集经过精心整理，涵盖了需要推理能力的多个领域，为模型训练提供了坚实的基础。

特点

Sky-T1_data_17k数据集以其多样性和高质量著称。该数据集不仅包含了科学和谜题领域的丰富数据，还通过拒绝采样技术确保了数据的精确性和可靠性。其覆盖的领域广泛，包括数学、编程和科学等，能够有效支持模型在多任务场景下的推理能力。此外，数据集的开放性和透明性也为社区的研究和改进提供了便利。

使用方法

Sky-T1_data_17k数据集的使用方法简单直观。用户可以通过Hugging Face平台直接访问和下载数据集。数据集的结构清晰，包含训练数据和相关脚本，便于用户快速上手。此外，数据集还提供了详细的训练和评估代码，用户可以根据需求调整训练参数或进行模型微调。通过Llama-Factory框架，用户可以在短时间内完成模型的训练和部署，极大地提升了研究效率。

背景与挑战

背景概述

Sky-T1_data_17k数据集由NovaSky团队于2025年发布，旨在推动大规模语言模型在数学、编程和科学领域的推理能力研究。该数据集作为Sky-T1-32B-Preview模型的训练基础，涵盖了广泛的领域知识，并通过拒绝采样技术提升了数据质量。其核心研究问题在于如何通过高质量的数据集提升模型在复杂任务中的表现。该数据集的发布不仅为相关领域的研究者提供了宝贵的资源，还通过开源的方式推动了社区协作与技术进步。

当前挑战

Sky-T1_data_17k数据集在构建过程中面临多重挑战。首先，数据集的多样性要求覆盖数学、编程和科学等多个领域，这对数据收集和标注提出了极高的要求。其次，数据质量的控制是关键，团队通过拒绝采样技术筛选高质量数据，但这一过程耗时且计算成本高昂。此外，模型训练过程中需要处理大规模数据，如何在有限的计算资源下高效完成训练也是一个重要挑战。最后，数据集的开放性与可复现性要求团队在数据、代码和模型权重等方面实现全面开源，这对技术透明度和社区协作提出了更高要求。

常用场景

经典使用场景

Sky-T1_data_17k数据集在自然语言处理和机器学习领域中被广泛应用于模型训练和评估。该数据集通过涵盖数学、编程和科学等多个领域的多样化数据，为研究人员提供了一个全面的基准测试平台。其经典使用场景包括训练大规模语言模型，如Sky-T1-32B-Preview，并通过拒绝采样等技术提升数据质量，确保模型在复杂推理任务中的表现。

解决学术问题

Sky-T1_data_17k数据集解决了大规模语言模型训练中数据多样性和质量不足的问题。通过精心设计的数据混合和拒绝采样策略，该数据集显著提升了模型在数学、编程和科学等领域的推理能力。其开放源代码和数据的特性，使得研究人员能够轻松复现和改进实验结果，推动了自然语言处理领域的透明性和可重复性研究。

衍生相关工作

Sky-T1_data_17k数据集衍生了一系列相关研究工作，特别是在大规模语言模型优化和多领域推理任务中。例如，基于该数据集的Sky-T1-32B-Preview模型在多个基准测试中表现出色，推动了类似模型如STILL-2和Qwen的进一步发展。这些工作不仅扩展了数据集的应用范围，还为未来的研究提供了宝贵的参考和基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集