five

claude-sonnet-4.6-merged

收藏
Hugging Face2026-05-07 更新2026-05-08 收录
下载链接:
https://huggingface.co/datasets/someoneatemylastsliceofpizza/claude-sonnet-4.6-merged
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个经过合并和去重的蒸馏数据集,来源于2个社区数据集,专门用于类似Qwen3等模型的有监督微调(SFT),采用OpenAI聊天格式。数据集包含52,795条对话记录(去重后),其中Roman数据集部分经过严格筛选,仅保留评分≥8.5/10的优质回答。数据字段包括系统提示(system)、用户首轮输入(user)、助手首轮回复(assistant)、数据来源标签(source)和生成模型标识(model,均为claude-sonnet-4-6)。应用了多重质量过滤:移除空响应、基于标准化用户输入哈希去重、检查助手回复有效性等。特别值得注意的是TeichAI来源数据包含<think>块形式的推理过程。数据集适用于对话模型微调任务,并提供了与Qwen3模型兼容的使用示例。
创建时间:
2026-05-07
原始信息汇总

数据集概述

Claude Sonnet 4.6 — Merged SFT Dataset 是一个合并并去重后的蒸馏数据集,来源于两个社区数据集。该数据集旨在用于基于 OpenAI 聊天格式的监督微调(SFT),适用于 Qwen3 等模型。

数据集规模统计

阶段 数据行数
合并后(去重前) 53,897
去重后 52,795
最终上传量 52,795

去重依据:基于首轮用户消息(小写化、空白规范化后)的 MD5 哈希值。

数据列说明

列名 类型 描述
system 字符串 系统提示(若缺失则为空字符串)
user 字符串 首轮用户消息
assistant 字符串 首轮助手回复(可能包含“<think>”块)
source 字符串 来源数据集标识标签
model 字符串 生成回复的 Claude 模型(claude-sonnet-4-6

数据来源

来源数据集 加载行数 筛选后行数 最终行数 筛选条件/说明
Roman1111111/claude-sonnet-4.6-100000X-filtered 76,812 52,801 51,701 评分筛选:yes 等级,且评分 ≥ 8.5 / 10
TeichAI/Claude-Sonnet-4.6-Reasoning-1100x 1,096 1,096 1,094 推理过程以“<think>”块形式嵌入

质量筛选条件

  • 移除空值或空回复
  • 基于规范化后的首轮用户消息哈希进行去重
  • 检查助手回复:去除“<think>”块后,回复内容必须非空
  • 丢弃“<think>”占位符行(如“...”或“…”)

使用示例

python from datasets import load_dataset

ds = load_dataset("someoneatemylastsliceofpizza/claude-sonnet-4.6-merged", split="train") print(ds[0])

{system: ..., user: ..., assistant: ..., source: ..., model: claude-sonnet-4-6}

Qwen3 微调示例:

python import json from datasets import load_dataset from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen3-4B")

def format_row(row): msgs = [] if row["system"]: msgs.append({"role": "system", "content": row["system"]}) msgs.append( {"role": "user", "content": row["user"]}) msgs.append( {"role": "assistant", "content": row["assistant"]}) return {"text": tokenizer.apply_chat_template(msgs, tokenize=False, add_generation_prompt=False)}

dataset = ds.map(format_row)

许可证

Apache-2.0

标签

claude, distillation

语言

英语

搜集汇总
数据集介绍
main_image_url
构建方式
在大型语言模型的监督微调(SFT)领域,高质量指令数据的匮乏始终是制约模型性能提升的关键瓶颈。该数据集通过蒸馏技术,将两个社区数据集进行合并与去重,旨在为Qwen3等模型提供优质的微调语料。构建过程首先从Roman1111111贡献的数据集中筛选出评分不低于8.5分且判定为“是”的高质量指令,并从TeichAI提供的推理数据中保留全部样本。随后,基于首轮用户输入的MD5哈希值进行归一化去重,并剔除了空响应及仅含占位符的异常数据,最终整合形成包含52,795条记录的精选集合。
特点
该数据集在结构上呈现出鲜明的实用性特征,每条记录均包含系统提示、用户输入、助手回应、来源标签及模型标识五个字段。其核心优势在于双重质量保障机制:一方面通过严格的评分阈值从海量候选数据中提取优质对话,另一方面嵌入的推理轨迹以<think>块形式保留,使模型能够学习到更为深入的思维链条。此外,数据来源的透明化标注为后续分析和改进提供了可追溯性,而统一采用OpenAI对话格式的设计则大幅降低了模型适配的复杂度。
使用方法
研究者可通过HuggingFace的datasets库便捷加载该数据集,调用load_dataset函数并指定分割为训练集即可获取全部数据。每个样本以字典形式呈现,其中包含系统提示、用户输入和助手回应等字段。对于Qwen3等模型的具体微调,建议利用AutoTokenizer对对话结构应用聊天模板进行格式化,将系统、用户和助手角色按序组装为对话消息列表,再通过apply_chat_template方法生成可直接用于训练的文本序列。此方式确保了数据格式与模型预训练阶段的一致性,从而最大化微调效果。
背景与挑战
背景概述
在大型语言模型(LLMs)快速演进的背景下,知识蒸馏与监督微调(SFT)已成为提升模型性能的关键技术路径。2025年,社区用户通过整合来自Roman1111111和TeichAI的两个公开数据集,构建了名为claude-sonnet-4.6-merged的混合蒸馏数据集。该数据集专为强化学习与监督微调设计,核心目标是为Qwen3等开源模型提供高质量、去重后的对话训练样本。数据来源聚焦于Claude Sonnet 4.6模型的高分生成结果(评分≥8.5/10)与推理轨迹,合并前原始样本约53,897条,经严格的MD5哈希去重与空响应过滤后,最终保留52,795条高质量实例。该数据集的出现,为低成本复现高性能对话模型提供了可靠的数据基础,推动了开源社区在模型蒸馏与对齐研究上的发展。
当前挑战
该数据集所应对的领域挑战主要来自两个方面:其一,如何从私有或闭源模型(如Claude Sonnet 4.6)中高效萃取高质量知识,以弥补开源模型在复杂推理与指令遵循能力上的不足,尤其是通过评分过滤(≥8.5/10)保证数据质量;其二,在构建过程中面临着数据冗余与噪声处理的难题,原始数据来源分散且存在重复样本,需借助规范化后的用户首轮对话MD5哈希进行精确去重,同时移除空响应、占位符及无效推理块。此外,异构数据的融合——包括常规对话与嵌入<think>块的推理轨迹——对格式统一与信息完整性提出了额外挑战。最终产出的数据集在保持52,795条精炼样本的同时,也为后续模型微调的稳定性和可复现性奠定了基础。
常用场景
经典使用场景
在自然语言处理与大型语言模型的微调研究中,该数据集被广泛用于监督式微调(Supervised Fine-Tuning, SFT)任务,尤其是面向指令遵循与对话生成场景。开发者可基于OpenAI聊天格式,利用系统提示词、用户指令与助手的响应构建训练样本,对模型如Qwen3进行深度调优。数据集中特别保留了含有<think>标签的推理轨迹,为训练具备链式思考能力的对话模型提供了宝贵资源。通过消除低质量与重复数据,最终形成一个包含近五万三千条高质量人机对话对的数据集,显著提升了模型在意图理解与结构化输出上的表现。
衍生相关工作
围绕该数据集衍生出一系列富有影响力的研究工作,其中最具代表性的是关于慢思维蒸馏与大模型能力迁移的探索。基于该数据库中Claude Sonnet 4.6生成的推理轨迹,研究者构建了多个变体数据集,用于测试“思考块”在不同骨干模型间的可迁移性。此外,针对数据筛选策略的后续工作也相继涌现,如探究评分阈值对蒸馏效果的非线性影响,以及跨模型架构的通用微调范式。这些衍生工作不仅深化了对知识蒸馏机理的理解,也为构建更高效、更透明的开放权重语言模型炼制管线提供了参照蓝图。
数据集最近研究
最新研究方向
在大型语言模型快速迭代的浪潮下,知识蒸馏与监督微调成为提升小规模模型性能的关键路径。claude-sonnet-4.6-merged数据集正是这一前沿方向的产物,其通过融合并去重来自两个社区的高质量Claude Sonnet蒸馏数据,旨在为Qwen3等开源模型提供强大的监督微调素材。值得注意的是,该数据集引入了严谨的质量筛选机制,包括基于评分的阈值过滤以及首次用户交互的哈希去重,确保了训练数据的纯净度与多样性。同时,嵌入在助理回复中的推理轨迹块,体现了将大规模模型复杂推理能力迁移至小模型的最新尝试,这对于推动高效、可部署的AI助手研究具有深远意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作