manaf1234/synthetic_leather

Name: manaf1234/synthetic_leather
Creator: manaf1234
Published: 2026-05-01 12:52:03
License: 暂无描述

Hugging Face2026-05-01 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/manaf1234/synthetic_leather

下载链接

链接失效反馈

官方服务：

资源简介：

Synthetic Leather v1.0是一个专为训练大型语言模型（LLMs）而设计的超密集合成数据集，专注于多步推理和逻辑验证。与标准的网络爬取数据不同，每个条目都经过精心设计以消除噪声并优先考虑推理路径的完整性。数据集采用JSONL格式，包含instruction、input和output三个主要字段，其中output字段进一步分为<|reasoning|>和<|answer|>两个部分，分别表示推理过程和最终答案。该数据集适用于监督微调（SFT）和强化学习（RL），特别适合需要深度推理的任务，如演绎推理、代码逻辑和数学验证。

Synthetic Leather v1.0 is an ultra-dense synthetic dataset purpose-built for training Large Language Models (LLMs) in multi-step deduction and logical verification. Unlike standard web-crawled data, every entry is architected to eliminate noise and prioritize reasoning-path integrity. The dataset follows a strictly validated .jsonl structure with instruction, input, and output fields, where output is divided into <|reasoning|> and <|answer|> tokens for detailed reasoning traces and final answers. Optimized for Chain-of-Thought (CoT) architectures, it is ideal for Supervised Fine-Tuning (SFT) and Reinforcement Learning (RL) in deep-reasoning tasks like deduction, code logic, and math verification.

提供机构：

manaf1234

搜集汇总

数据集介绍

构建方式

Synthetic Leather v1.0是一个专为训练大型语言模型（LLM）在复杂推理与逻辑验证任务中表现卓越而设计的超密集合成数据集。其构建核心在于完全由机器生成，摒弃传统网络爬取数据中的噪声干扰，专注于逻辑路径的完整性。数据格式采用严格验证的JSONL结构，每条样本包含三类关键字段：指令（instruction）提出逻辑问题或提示符，输入（input）提供上下文约束、代码片段或数学前提，输出（output）则采用双模块响应形式，利用特殊标签<|reasoning|>和<|answer|>分别封装推理轨迹与最终答案，从而模拟模型在训练时逐步推理并输出结论的全过程。

特点

该数据集的核心特征在于其高密度的逻辑结构化设计，每条样本均包含精细化的推理步骤（<|reasoning|>），引导模型识别边界情况、验证前提假设并修正中间错误，最终输出经过推理验证的答案（<|answer|>）。数据聚焦于演绎推理、代码逻辑与数学验证三大领域，经过严格去重与格式校验，确保逻辑密度优化至最高水平，尤其适用于推动深度推理器（Deep-Reasoner）的构建。其合成性质有效降低了下游模型产生幻觉的风险，为链式思维（Chain-of-Thought）架构提供了理想的训练素材。

使用方法

用户可通过HuggingFace数据集库便捷加载该数据集，示例代码如下：`from datasets import load_dataset; dataset = load_dataset("manaf1234/synthetic_leather")`。该数据集支持有监督微调（SFT）与强化学习（RL）范式，特别适用于需要模型在输出前进行多步推理的任务。在训练阶段，用户可依据输出中的<|reasoning|>和<|answer|>块设计损失掩码策略，以强化对推理过程的监督。此外，也可用于评估架构变更对逻辑一致性的影响，或支持前沿的混合专家（MoE）与混合代理（MoA）系统的开发。

背景与挑战

背景概述

Synthetic Leather v1.0 是一个专为大型语言模型（LLM）设计的高保真合成推理数据集，由研究者于近期创建，旨在突破传统网络爬取数据中逻辑噪声与推理路径不完整的瓶颈。该数据集聚焦于多步演绎与逻辑验证，深度适配思维链（Chain-of-Thought）架构，通过提供高密度、结构化的推理样例，推动模型在数学、代码调试及复杂逻辑任务中的推理能力。其创建标志着合成数据在监督微调（SFT）与强化学习（RL）领域的重要进展，为提升LLM的推理完整性与减少幻觉提供了关键资源。

当前挑战

该数据集面临的核心挑战在于如何模拟真实世界中多样且复杂的推理场景，以避免合成数据导致的模型泛化能力下降。在领域问题上，传统模型常因缺乏结构化推理路径而产生逻辑跳跃或错误；Synthetic Leather通过在每条数据中嵌入显式推理追踪，迫使模型学习逐步验证与纠错机制。构建过程中，确保数据的高逻辑密度与格式严格性是一大难点，包括设计合理的定界符（如<|reasoning|>）以区分推理过程与最终输出，同时需进行去重与格式校验，以维持数据在规模有限（1K-10K样本）条件下的质量与一致性。

常用场景

经典使用场景

在大型语言模型（LLM）的研发浪潮中，高质量、高密度的推演数据是突破模型逻辑瓶颈的关键。Synthetic Leather v1.0 作为一个精心构造的合成数据集，其经典使用场景聚焦于监督微调（SFT）和强化学习（RL）训练环节。它特别适用于那些需要模型具备深层推理能力的任务，例如代码调试、数学证明与逻辑链条的完整验证。研究者可将该数据集作为思维链（Chain-of-Thought）架构的核心训练语料，引导模型在输出最终答案前，先生成一个结构化的、可审计的内部推理轨迹，从而显著提升模型在复杂逻辑问题上的准确性与可解释性。

衍生相关工作

Synthetic Leather 的出现并非孤立存在，它根植并推动了多个前沿研究方向的演进。其设计理念与 Mixture-of-Agents（MoA）和 Mixture-of-Experts（MoE）等前沿架构紧密相连，为这些架构在逻辑一致性评估上提供了标准化的测试床。该数据集中使用的 `<|reasoning|>` 与 `<|answer|>` 分隔符范式，启发了后续一系列关于“推理-回答分离”的研究工作，如通过强化学习（RLHF/DPO）来优化中间推理步骤的奖励模型。此外，作为蒸馏（Distillation）任务的优质教师信号源，该数据集被广泛用于将大型教师模型的推理能力转移至更高效的小型学生模型，催生了众多关于知识蒸馏与逻辑密度保持的实证研究。

数据集最近研究