arthu1/wind-lite-sft

Name: arthu1/wind-lite-sft
Creator: arthu1
Published: 2026-04-10 16:24:27
License: 暂无描述

Hugging Face2026-04-10 更新2026-04-12 收录

下载链接：

https://hf-mirror.com/datasets/arthu1/wind-lite-sft

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: mit task_categories: - text-generation - question-answering language: - en tags: - wind - north-ai - sft - instruction-tuning pretty_name: Wind Lite SFT size_categories: - 10K<n<100K --- # Wind Lite SFT Custom supervised fine-tuning dataset for **Wind Lite 1.6** by North AI. ## Dataset Summary 20,000 high-quality instruction-response pairs covering identity grounding, math reasoning, coding, general knowledge, and multi-turn conversations. ## Data Composition | Category | Count | Description | |---|---|---| | Math & Reasoning | ~7,000 | Arithmetic, algebra, percentages, unit conversions — with step-by-step working | | Coding | ~4,000 | Python, JavaScript, SQL, systems — with explanations | | Multi-turn Conversations | ~60 | Debugging sessions, concept explanations, building projects | | General Knowledge | ~200 | Science, history, economics, geography | | Wind Identity | ~25 | Model name, creator, capabilities, limitations | | Personality & Style | ~50 | Tone, advice-giving, how to respond | ## Format All examples use the ChatML messages format: ```json { "messages": [ {"role": "user", "content": "What is 15% of 340?"}, {"role": "assistant", "content": "15% × 340 = 0.15 × 340 = **51**"} ] } ``` Multi-turn examples contain more than 2 messages. ## Usage ```python from datasets import load_dataset ds = load_dataset("arthu1/wind-lite-sft", split="train") ``` ## Model This dataset is used to train [Wind Lite 1.6](https://huggingface.co/arthu1/wind-lite-1-6-0326-beta1) by North AI. ## License MIT

提供机构：

arthu1

搜集汇总

数据集介绍

构建方式

Wind Lite SFT数据集由North AI精心构建，专为Wind Lite 1.6模型的指令微调而设计。该数据集包含了20,000条高质量的指令-响应对，覆盖数学推理、编程、多轮对话、常识知识及模型身份确立等多个维度。其中，数学与推理类约7,000条，涵盖算术、代数、百分比等，并附有逐步解析；编程类约4,000条，涉及Python、JavaScript、SQL等语言，均包含解释；多轮对话约60条，聚焦调试、概念讲解等场景；此外还包含少量常识知识、模型身份及人格风格样本。所有数据均采用ChatML消息格式组织，确保与主流对话模型的兼容性。

使用方法

使用者可通过HuggingFace Datasets库轻松加载该数据集，仅需一行Python代码：`ds = load_dataset("arthu1/wind-lite-sft", split="train")`。数据以ChatML消息格式存储，每条样本包含一个或多个消息对，用户可据此进行标准的指令微调。该数据集适用于对话模型的监督微调（SFT）场景，尤其适合需要提升数学推理、编程辅助及多轮对话能力的模型。需要注意的是，该数据集主要面向英语环境，并采用MIT许可协议，可自由用于学术或商业项目。

背景与挑战

背景概述

在大型语言模型（LLM）微调领域，高质量指令数据集是提升模型对齐能力与任务泛化性的关键。Wind Lite SFT 数据集由 North AI 团队于 2024 年创建，专为训练其 1.6B 参数基座模型 Wind Lite 1.6 而设计。该数据集的核心研究问题在于如何通过少量但精良的监督微调样本，使小型模型在数学推理、代码生成、多轮对话等多元任务上展现竞争性能。其影响力体现在为资源受限的轻量级 LLM 训练提供了一套可复用的数据构建范式，尤其聚焦于身份认知与人格风格的引导，弥补了过往开源数据集在模型自我认知与交互一致性上的不足。数据集包含 2 万条覆盖 6 大类别的高质量指令-响应对，采用 ChatML 格式，便于直接用于对话模型的微调。

当前挑战

该数据集主要应对两大层面的挑战。在领域问题层面，轻量级 LLM 常因参数量小而在复杂推理与代码生成中表现脆弱，Wind Lite SFT 通过设计分段式推理步骤与代码解释性样本，提升了模型在受限容量下的逻辑连贯性。在构建过程层面，团队面临数据类别分布极度不均衡的挑战——多轮对话仅 60 条、身份认知仅 25 条，需确保稀缺类别不因数量过少而引发过拟合或遗忘。此外，构建者需精准设计指令以涵盖真实用户场景的多样性，同时避免冗余模板导致的机械重复响应，这要求在小样本集合中平衡覆盖度与数据纯净度。如何在不牺牲泛化力的前提下定义细致的人格响应规则，亦是悬而未决的难题。

常用场景

经典使用场景

在自然语言处理与人工智能模型微调的研究中，高质量指令数据集的构建是提升模型对话能力与推理准确性的基石。Wind Lite SFT数据集专为监督微调环节而设计，涵盖约20,000组精挑细选的指令-回答对，广泛涉及数学推理、编程解答、多轮对话、身份认知与通用知识等核心场景。其独特之处在于采用ChatML消息格式组织数据，使得模型能够在统一的结构下学习指令理解与上下文连贯回应，成为训练具备基础对话与逻辑推理能力语言模型的标准素材。

解决学术问题

该数据集有效缓解了小型语言模型在指令遵循与复杂推理任务上表现不足的学术困境。传统微调数据集往往侧重单一任务或语料规模有限，难以同时兼顾多领域知识的整合与分步推理的呈现。Wind Lite SFT通过精心规划各学科占比，尤其是数学与编程推理的逐步推导范例，为学术界提供了一种平衡多样性与深度的微调数据范式，从而推动了在参数量受限条件下模型泛化能力与求解准确性的提升，其影响体现在为资源受限场景下的高效模型训练开辟了新路径。

实际应用

在实际产业落地中，Wind Lite SFT数据集主要用于定制化对话助手的研发与优化，例如赋能轻量化模型以胜任日常问答、编程辅助、数学计算及多轮任务引导等场景。基于此数据微调的Wind Lite 1.6模型，可部署于算力相对有限的边缘设备或嵌入式系统，在没有联网环境的条件下为用户提供即时且可靠的智能支持，显著降低了大规模语言模型商业化部署的门槛与成本，从而拓展了人工智能技术在教育和咨询等领域的实用边界。

数据集最近研究