claude-sonnet-4.6-merged

Hugging Face2026-05-07 更新2026-05-08 收录

下载链接：

https://huggingface.co/datasets/someoneatemylastsliceofpizza/claude-sonnet-4.6-merged

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个经过合并和去重的蒸馏数据集，来源于2个社区数据集，专门用于类似Qwen3等模型的有监督微调（SFT），采用OpenAI聊天格式。数据集包含52,795条对话记录（去重后），其中Roman数据集部分经过严格筛选，仅保留评分≥8.5/10的优质回答。数据字段包括系统提示（system）、用户首轮输入（user）、助手首轮回复（assistant）、数据来源标签（source）和生成模型标识（model，均为claude-sonnet-4-6）。应用了多重质量过滤：移除空响应、基于标准化用户输入哈希去重、检查助手回复有效性等。特别值得注意的是TeichAI来源数据包含<think>块形式的推理过程。数据集适用于对话模型微调任务，并提供了与Qwen3模型兼容的使用示例。

创建时间：

2026-05-07

原始信息汇总

数据集概述

Claude Sonnet 4.6 — Merged SFT Dataset 是一个合并并去重后的蒸馏数据集，来源于两个社区数据集。该数据集旨在用于基于 OpenAI 聊天格式的监督微调（SFT），适用于 Qwen3 等模型。

数据集规模统计

阶段	数据行数
合并后（去重前）	53,897
去重后	52,795
最终上传量	52,795

去重依据：基于首轮用户消息（小写化、空白规范化后）的 MD5 哈希值。

数据列说明

列名	类型	描述
`system`	字符串	系统提示（若缺失则为空字符串）
`user`	字符串	首轮用户消息
`assistant`	字符串	首轮助手回复（可能包含“<think>”块）
`source`	字符串	来源数据集标识标签
`model`	字符串	生成回复的 Claude 模型（`claude-sonnet-4-6`）

数据来源

来源数据集	加载行数	筛选后行数	最终行数	筛选条件/说明
Roman1111111/claude-sonnet-4.6-100000X-filtered	76,812	52,801	51,701	评分筛选：`yes` 等级，且评分 ≥ 8.5 / 10
TeichAI/Claude-Sonnet-4.6-Reasoning-1100x	1,096	1,096	1,094	推理过程以“<think>”块形式嵌入

质量筛选条件

移除空值或空回复
基于规范化后的首轮用户消息哈希进行去重
检查助手回复：去除“<think>”块后，回复内容必须非空
丢弃“<think>”占位符行（如“...”或“…”）

使用示例

python from datasets import load_dataset

ds = load_dataset("someoneatemylastsliceofpizza/claude-sonnet-4.6-merged", split="train") print(ds[0])

{system: ..., user: ..., assistant: ..., source: ..., model: claude-sonnet-4-6}

Qwen3 微调示例：

python import json from datasets import load_dataset from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen3-4B")

def format_row(row): msgs = [] if row["system"]: msgs.append({"role": "system", "content": row["system"]}) msgs.append( {"role": "user", "content": row["user"]}) msgs.append( {"role": "assistant", "content": row["assistant"]}) return {"text": tokenizer.apply_chat_template(msgs, tokenize=False, add_generation_prompt=False)}

dataset = ds.map(format_row)

许可证

Apache-2.0

语言

英语

搜集汇总

数据集介绍

构建方式

在大型语言模型的监督微调（SFT）领域，高质量指令数据的匮乏始终是制约模型性能提升的关键瓶颈。该数据集通过蒸馏技术，将两个社区数据集进行合并与去重，旨在为Qwen3等模型提供优质的微调语料。构建过程首先从Roman1111111贡献的数据集中筛选出评分不低于8.5分且判定为“是”的高质量指令，并从TeichAI提供的推理数据中保留全部样本。随后，基于首轮用户输入的MD5哈希值进行归一化去重，并剔除了空响应及仅含占位符的异常数据，最终整合形成包含52,795条记录的精选集合。

特点

该数据集在结构上呈现出鲜明的实用性特征，每条记录均包含系统提示、用户输入、助手回应、来源标签及模型标识五个字段。其核心优势在于双重质量保障机制：一方面通过严格的评分阈值从海量候选数据中提取优质对话，另一方面嵌入的推理轨迹以<think>块形式保留，使模型能够学习到更为深入的思维链条。此外，数据来源的透明化标注为后续分析和改进提供了可追溯性，而统一采用OpenAI对话格式的设计则大幅降低了模型适配的复杂度。

使用方法

研究者可通过HuggingFace的datasets库便捷加载该数据集，调用load_dataset函数并指定分割为训练集即可获取全部数据。每个样本以字典形式呈现，其中包含系统提示、用户输入和助手回应等字段。对于Qwen3等模型的具体微调，建议利用AutoTokenizer对对话结构应用聊天模板进行格式化，将系统、用户和助手角色按序组装为对话消息列表，再通过apply_chat_template方法生成可直接用于训练的文本序列。此方式确保了数据格式与模型预训练阶段的一致性，从而最大化微调效果。

背景与挑战

背景概述

在大型语言模型（LLMs）快速演进的背景下，知识蒸馏与监督微调（SFT）已成为提升模型性能的关键技术路径。2025年，社区用户通过整合来自Roman1111111和TeichAI的两个公开数据集，构建了名为claude-sonnet-4.6-merged的混合蒸馏数据集。该数据集专为强化学习与监督微调设计，核心目标是为Qwen3等开源模型提供高质量、去重后的对话训练样本。数据来源聚焦于Claude Sonnet 4.6模型的高分生成结果（评分≥8.5/10）与推理轨迹，合并前原始样本约53,897条，经严格的MD5哈希去重与空响应过滤后，最终保留52,795条高质量实例。该数据集的出现，为低成本复现高性能对话模型提供了可靠的数据基础，推动了开源社区在模型蒸馏与对齐研究上的发展。

当前挑战

该数据集所应对的领域挑战主要来自两个方面：其一，如何从私有或闭源模型（如Claude Sonnet 4.6）中高效萃取高质量知识，以弥补开源模型在复杂推理与指令遵循能力上的不足，尤其是通过评分过滤（≥8.5/10）保证数据质量；其二，在构建过程中面临着数据冗余与噪声处理的难题，原始数据来源分散且存在重复样本，需借助规范化后的用户首轮对话MD5哈希进行精确去重，同时移除空响应、占位符及无效推理块。此外，异构数据的融合——包括常规对话与嵌入<think>块的推理轨迹——对格式统一与信息完整性提出了额外挑战。最终产出的数据集在保持52,795条精炼样本的同时，也为后续模型微调的稳定性和可复现性奠定了基础。

常用场景

经典使用场景

在自然语言处理与大型语言模型的微调研究中，该数据集被广泛用于监督式微调（Supervised Fine-Tuning, SFT）任务，尤其是面向指令遵循与对话生成场景。开发者可基于OpenAI聊天格式，利用系统提示词、用户指令与助手的响应构建训练样本，对模型如Qwen3进行深度调优。数据集中特别保留了含有<think>标签的推理轨迹，为训练具备链式思考能力的对话模型提供了宝贵资源。通过消除低质量与重复数据，最终形成一个包含近五万三千条高质量人机对话对的数据集，显著提升了模型在意图理解与结构化输出上的表现。

衍生相关工作

围绕该数据集衍生出一系列富有影响力的研究工作，其中最具代表性的是关于慢思维蒸馏与大模型能力迁移的探索。基于该数据库中Claude Sonnet 4.6生成的推理轨迹，研究者构建了多个变体数据集，用于测试“思考块”在不同骨干模型间的可迁移性。此外，针对数据筛选策略的后续工作也相继涌现，如探究评分阈值对蒸馏效果的非线性影响，以及跨模型架构的通用微调范式。这些衍生工作不仅深化了对知识蒸馏机理的理解，也为构建更高效、更透明的开放权重语言模型炼制管线提供了参照蓝图。

数据集最近研究