slm-synthetic

Hugging Face2026-05-19 更新2026-05-21 收录

下载链接：

https://huggingface.co/datasets/tohio/slm-synthetic

下载链接

链接失效反馈

官方服务：

资源简介：

SLM Synthetic Data 是一个专为小型语言模型训练流水线设计的合成数据集，用于支持指令遵循、算术推理、简单编程任务、教育类多项选择题以及事实约束行为等方面的实验。该数据集包含513,064条记录，分为四个JSONL格式文件：算术推理文件（220,291条记录）包含类型、问题、步骤和答案字段；教育类问答文件（149,031条记录）包含类型、问题、选项、正确答案索引和解释字段；事实约束文件（51,523条记录）包含类型、问题和安全回答字段；编程任务文件（92,219条记录）包含类型、任务、计划和代码字段。数据由llama-3.1-8b-instant模型通过批量并行请求生成，并经过原始生成、模式验证和精确去重三个处理阶段。它适用于小型语言模型训练实验、合成数据生成流水线验证、指令遵循和响应格式实验，以及算术、多项选择、事实约束和简单编程行为检查等场景。但需注意，所有记录均为合成数据，可能包含错误或低质量示例，不应作为权威事实知识来源，代码示例较为简单，且合成数据分布可能与真实用户查询存在差异。

SLM Synthetic Data is a synthetic dataset specifically designed for small language model (SLM) training pipelines, supporting experiments on instruction following, arithmetic reasoning, simple programming tasks, educational multiple-choice questions, and fact-constrained behavior. This dataset contains 513,064 records, split into four JSONL-formatted files: the arithmetic reasoning file (220,291 records) with fields including type, question, steps, and answer; the educational question answering file (149,031 records) with fields including type, question, options, correct answer index, and explanation; the fact-constrained file (51,523 records) with fields including type, question, and safe response; and the programming task file (92,219 records) with fields including type, task, plan, and code. The dataset was generated via batch parallel requests using the llama-3.1-8b-instant model, and processed through three stages: raw generation, schema validation, and exact deduplication. It is applicable to small language model training experiments, validation of synthetic data generation pipelines, experiments on instruction following and response formats, as well as scenarios such as arithmetic, multiple-choice, fact-constrained, and simple programming behavior checks. However, it should be noted that all records are synthetic data, which may contain errors or low-quality examples, and should not be treated as an authoritative source of factual knowledge. The code examples are relatively simple, and the distribution of the synthetic data may differ from that of real user queries.

创建时间：

2026-05-19

搜集汇总

数据集介绍

构建方式

SLM Synthetic Data数据集专为小型语言模型实验而构建，其核心设计理念旨在通过合成数据模拟多样化的认知任务场景。该数据集共包含513,064条记录，采用JSONL格式存储，总容量为154.1 MB。构建过程中，系统分别针对算术推理、多选问答、事实约束及编程任务四大信号类型生成原始数据，并辅以精确去重策略，以确保数据在保持模板一致性的同时避免冗余。每条记录均遵循结构化字段定义，例如算术类型包含问题、推理步骤与答案，而多选问答则涵盖问题、选项、正确答案索引及解释，从而形成层次分明、易于解析的合成数据体系。

使用方法

该数据集的应用场景广泛且定位明确，特别适用于小型语言模型的训练实验与合成数据管线的有效性验证。用户可直接使用JSONL格式文件，通过加载对应信号子集进行指令跟随与响应格式测试，例如利用算术子集评估模型推理连贯性，借助多选问答子集检验多选题理解能力，或通过事实约束子集考察模型在不确定情境下的谨慎度。此外，编程任务的简洁性使其适合作为基础编码行为的入门测评材料。使用时需注意数据为合成生成，可能存在质量波动，不宜作为权威事实源，编程代码在使用前应经人工审查以适应生产环境。

背景与挑战

背景概述

SLM Synthetic数据集由研究团队于2026年5月创建，专为小型语言模型实验而设计，包含超过51万条合成训练记录，涵盖算术推理、代码生成、教育问答及事实约束等四大信号类型。该数据集不仅为小模型的指令遵循和响应格式验证提供了标准化测试平台，还通过其丰富的模板化结构推动了合成数据管道的开发与评估。作为开源资源（MIT协议），SLM Synthetic填补了面向资源受限场景的高质量合成数据的空白，对探索数据效率与模型泛化能力的研究具有重要参考价值。

当前挑战

SLM Synthetic数据集面临的核心挑战在于其合成性质带来的领域问题：如何确保生成的数据能有效模拟真实用户查询的多样性与复杂性，避免因模板化结构导致的分布偏移影响模型泛化能力。构建过程中，团队需权衡精确去重与模糊去重的适用性，因默认未采用模糊去重策略可能遗漏语义重复而降低数据效用；同时，算术与代码任务中易出现逻辑错误或质量不一的样本，需在规模控制与数据可信度间寻求平衡，以维持小型语言模型训练的可靠基准。

常用场景

经典使用场景

SLM Synthetic数据集专为小型语言模型的训练实验而设计，其核心应用场景涵盖算术推理、多选题问答、事实约束性响应以及基础代码生成四大领域。研究者可借助该数据集系统性地验证模型在整数运算、文字应用题、缺失值推理等算术任务上的表现，同时通过结构化多选题评估模型对教育场景中情境化问题的理解能力。此外，数据集中包含的代码任务与事实约束样本，为探索模型在指令遵循、格式规范以及答案谨慎性方面的行为特征提供了标准化测试基准。

解决学术问题

该数据集有效解决了小型语言模型研究中的两个关键问题：一是针对资源受限场景下模型训练数据的缺乏，二是合成数据质量与真实分布差异的评估难题。通过提供超过51万条结构化合成记录，它使研究者能够在不依赖大规模真实语料的前提下，开展算术推理、多项选择回答、事实约束响应及代码生成等核心能力的可重复实验。其多信号设计允许对模型的不同认知维度进行解耦分析，从而推动了小型模型在指令遵循与答案可靠性方面的学术探索。

实际应用

在实际应用中，SLM Synthetic数据集主要服务于教育科技领域的智能辅导系统开发、轻量级对话机器人的行为校准以及代码辅助工具的初步验证。例如，利用其中的arithmetic信号可以训练模型完成基础数学题目的逐步推理，而educational_qa_mcq部分则适用于构建情境化知识问答模块。factual_restraint样本尤为适合需要避免模型生成无根据主张的场景，如客户支持或医学信息检索，通过强化模型对不确定性的识别能力，提升实际部署中的安全性。

数据集最近研究