Step-3.5-Clean-QA-Synth-Reasoning

Hugging Face2026-04-03 更新2026-04-04 收录

下载链接：

https://huggingface.co/datasets/TESTtm7873/Step-3.5-Clean-QA-Synth-Reasoning

下载链接

链接失效反馈

官方服务：

资源简介：

Step-3.5-Clean-QA-Synth-Reasoning 是一个基于 [`TESTtm7873/Step-3.5-Clean-QA`](https://huggingface.co/datasets/TESTtm7873/Step-3.5-Clean-QA) 构建的合成推理数据集。该数据集的主要目的是从 Step 数据集中提取清理过的问答示例，生成明确的中介推理，并将结果以与 [`PleIAs/SYNTH`](https://huggingface.co/datasets/PleIAs/SYNTH) 监督风格对齐的结构进行打包，包含独立的 `query`、`reasoning` 和 `answer` 字段。数据集包含两个子集：`train_mini`（519 个已验证示例，用于快速实验和完整性检查）和 `train_8k`（8,268 个经过过滤和去重的示例，用于更大规模的微调运行）。数据经过严格的过滤和去重处理，确保质量。数据集适用于监督微调、推理结构化问答数据实验、中小规模 SFT 运行以及与其他推理风格数据集的比较。

创建时间：

2026-03-28

原始信息汇总

Step-3.5-Clean-QA-Synth-Reasoning 数据集概述

基本信息

数据集名称: Step-3.5-Clean-QA-Synth-Reasoning
语言: 英语 (en)、中文 (zh)
标签: synthlabs, synthetic, reasoning, qa, sft
任务类别: 文本生成 (text-generation)
规模类别: 1K<n<10K
配置文件: default

数据集描述

Step-3.5-Clean-QA-Synth-Reasoning 是一个合成的推理数据集，基于 TESTtm7873/Step-3.5-Clean-QA 构建。其目的是从 Step 数据集中获取清洗过的问答示例，生成显式的中间推理过程，并将结果打包成与 PleIAs/SYNTH 数据集所使用的监督风格对齐的结构：包含独立的 query、reasoning 和 answer 字段。这种对齐主要涉及推理格式和训练结构。请注意，本数据集并非 PleIAs 的官方发布，也不是原始 SYNTH 语料库的子集。

数据子集

train_mini: 包含 519 个经过验证的示例，用于快速实验和完整性检查。
train_8k: 包含 8,268 个经过过滤和去重的示例，用于更大规模的微调运行。
注意: Hugging Face 的分割标识符不允许使用连字符，因此预期的名称 train-mini 和 train-8k 在发布时被改为 train_mini 和 train_8k。

数据来源

TESTtm7873/Step-3.5-Clean-QA
PleIAs/SYNTH

数据统计

源快照中的原始行数: 31,352
因 modelUsed == "System" 而被移除的行数: 166
去重前的有效行数: 21,293
通过去重移除的行数: 13,025
最终 train_8k 行数: 8,268
最终 train_mini 行数: 519

数据列结构

query: 提示或问题。
reasoning: 采用 SYNTH 风格监督布局的合成中间推理。
answer: 最终答案。
messages: 可选的对话形式追踪记录（如果存在）。
full_seed: 源生成种子元数据（如果存在）。
modelUsed: 生成过程中的模型元数据。
source: 源数据的出处字段。

数据构建与处理 (`train_8k`)

train_8k 子集是基于本地 synth_verified_*.json 快照，按照以下规则构建的：

删除 modelUsed == "System" 的行。
删除 query、answer 或 reasoning 在修剪后为空的行。
根据 query 进行去重。
当存在重复提示时，保留最新的有效版本。

预期用途

本数据集适用于：

带有显式推理轨迹的监督微调。
使用推理结构化问答数据进行实验。
中小规模的 SFT 运行。
与其他推理风格数据集的比较。

相关数据集

源问答数据集: TESTtm7873/Step-3.5-Clean-QA (https://huggingface.co/datasets/TESTtm7873/Step-3.5-Clean-QA)
参考推理结构: PleIAs/SYNTH (https://huggingface.co/datasets/PleIAs/SYNTH)

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，合成推理数据集对于提升模型逻辑推理能力至关重要。Step-3.5-Clean-QA-Synth-Reasoning 数据集的构建源于对 Step-3.5-Clean-QA 数据集的深度加工，通过生成显式中间推理步骤，并借鉴 PleIAs/SYNTH 数据集的监督结构，将每个样本划分为查询、推理和答案三个独立字段。构建过程中，原始数据经过严格筛选与去重，剔除了系统生成的无效条目，并基于时间戳保留最新版本，最终形成包含 8,268 个高质量样本的 train_8k 子集以及 519 个样本的 train_mini 子集，确保了数据的纯净性与逻辑一致性。

使用方法

在模型训练与应用场景中，该数据集主要用于监督式微调，特别侧重于提升模型在问答任务中的显式推理能力。研究者可直接利用其结构化的查询-推理-答案三元组，训练模型生成中间推理步骤后再给出最终答案。数据集提供的 train_mini 子集适用于算法原型验证与快速实验，而 train_8k 子集则支持中等规模的精细调优。使用时可结合消息对话格式或元数据信息，进一步探索推理过程的可控生成，亦可用于与其他推理数据集的对比分析，以评估不同监督策略对模型逻辑性能的影响。

背景与挑战

背景概述

在自然语言处理领域，合成数据生成已成为提升模型推理能力的关键技术路径。Step-3.5-Clean-QA-Synth-Reasoning数据集由研究社区基于TESTtm7873/Step-3.5-Clean-QA与PleIAs/SYNTH等开源资源构建，其核心目标在于为问答任务生成显式的中间推理步骤。该数据集通过结构化字段组织，将查询、推理过程与最终答案分离，旨在支持监督微调实验，推动语言模型在复杂问题求解中的可解释性与逻辑连贯性发展。

当前挑战

该数据集致力于应对开放域问答中模型缺乏透明推理路径的挑战，通过合成中间步骤引导模型实现逐步逻辑推演。在构建过程中，面临多重技术难题：需从海量原始数据中筛选高质量问答对，并生成符合语法与逻辑规范的推理文本；同时，数据清洗与去重流程需平衡规模与质量，避免因自动化合成引入的噪声或重复内容损害训练效果。此外，对齐不同源数据集的结构与格式，确保推理字段的一致性与可用性，亦是构建过程中的关键障碍。

常用场景

经典使用场景

在自然语言处理领域，合成推理数据集为模型训练提供了结构化范例。Step-3.5-Clean-QA-Synth-Reasoning数据集通过将清理后的问答实例与显式中间推理步骤相结合，构建了包含查询、推理和答案三个独立字段的监督式训练样本。这一设计使其成为进行有监督微调实验的理想资源，尤其适用于中小规模的模型训练，能够有效提升模型在复杂问答任务中的逻辑推理能力。

解决学术问题

该数据集针对大语言模型在推理任务中缺乏透明中间步骤的学术挑战，提供了显式推理轨迹的监督数据。通过合成生成的推理链，研究者能够深入探索模型如何从问题推导出答案的内在机制，从而推动可解释人工智能的发展。它不仅解决了传统端到端训练中推理过程黑箱化的问题，还为评估和比较不同推理结构化数据集的性能建立了基准。

实际应用

在实际应用层面，该数据集支持构建需要多步逻辑推理的智能问答系统。例如，在教育技术领域，可用于开发能够逐步解答数学或科学问题的辅导工具；在专业咨询场景中，能够协助构建提供详细分析过程的决策支持系统。其清晰的推理结构使得模型输出更具可信度和可追溯性，满足了高可靠性应用场景的需求。

数据集最近研究