claude-opus-4.7-merged

Hugging Face2026-05-07 更新2026-05-08 收录

下载链接：

https://huggingface.co/datasets/someoneatemylastsliceofpizza/claude-opus-4.7-merged

下载链接

链接失效反馈

官方服务：

资源简介：

Claude Opus 4.7合并SFT数据集是一个经过去重处理的监督微调数据集，整合了来自3个社区数据集的内容。该数据集专为使用OpenAI聊天格式对Qwen3等模型进行监督微调（SFT）而设计。原始合并数据包含23,122条记录，经过MD5哈希去重（基于首用户回合的小写和空格标准化处理）后保留9,250条。数据集包含以下字段：系统提示（system）、用户首回合（user）、助手首回合（assistant，可能包含<think>块）、数据来源标识（source）和生成响应的Claude模型标识（model，均为claude-opus-4-7）。数据来源包括SWE-Router、TeichAI和angrygiraffe的三个子数据集，应用了空响应去除、<think>占位符行剔除等质量过滤措施。数据集适用于对话模型微调任务，并提供了与Qwen3兼容的使用示例。

创建时间：

2026-05-07

原始信息汇总

数据集概述：Claude Opus 4.7 — Merged SFT Dataset

基本信息

数据集名称：Claude Opus 4.7 — Merged SFT Dataset
许可证：Apache-2.0
语言：英语（en）
标签：claude, distillation
数据集地址：https://huggingface.co/datasets/someoneatemylastsliceofpizza/claude-opus-4.7-merged

数据集描述

该数据集是一个合并并去重后的蒸馏数据集，源自3个社区数据集，旨在用于基于OpenAI聊天格式的监督微调（SFT），例如Qwen3模型。

数据规模

阶段	行数
合并前（未去重）	23,122
去重后	9,250
最终上传	9,250

去重依据：对第一个用户轮次的MD5哈希值（小写化、空白字符归一化后）进行去重。

数据模式

列名	类型	描述
`system`	字符串	系统提示（如果不存在则为空字符串）
`user`	字符串	第一个用户轮次
`assistant`	字符串	第一个助手轮次（可能包含 `<think>` 块）
`source`	字符串	来源数据集标签
`model`	字符串	生成响应的Claude模型（`claude-opus-4-7`）

数据来源

数据集	加载行数	过滤后行数	最终行数	过滤/备注
SWE-Router/swebench-verified-claude-opus-4.7	1,000	785	414	使用 `test` 和 `test_1` 两个分割；仅保留 `resolved=True`
TeichAI/lordx64-claude-opus-4.7-max-cleaned	4,807	4,807	4,807	已经清理；预移除 `...` 占位思考行
angrygiraffe/claude-opus-4.6-4.7-reasoning-8.7k	38,504	17,530	4,029	过滤条件为 `model == claude-opus-4-7`；移除了 `<think>` 占位行

质量过滤规则（应用于所有数据组）

移除了空或空的响应
通过归一化的第一个用户轮次哈希进行去重
检查助手轮次：移除 <think> 块后响应必须非空
丢弃 <think> 占位行（... / …）

数据集贡献者

SWE-Router：SWE-Router/swebench-verified-claude-opus-4.7
TeichAI：TeichAI/lordx64-claude-opus-4.7-max-cleaned
angrygiraffe：angrygiraffe/claude-opus-4.6-4.7-reasoning-8.7k
合并与上传：someoneatemylastsliceofpizza

搜集汇总

数据集介绍

构建方式

在大型语言模型的监督微调领域，高质量的训练数据往往源自对多个公开数据集的系统性整合与精炼。本数据集通过融合来自三个社区贡献的Claude Opus 4.7蒸馏数据构建而成，原始合并样本量为23,122条，经严格去重与质量过滤后，最终保留了9,250条高质量对话记录。去重策略基于首轮用户输入的MD5哈希值，在统一小写化与空白符规范化处理后进行精确匹配。此外，每个数据条目均标记了来源归属与生成模型版本，确保了数据溯源的可信度与透明性。

特点

该数据集具备鲜明的实用性与结构化特征，每条记录均包含system、user、assistant、source及model五个字段，完整保留了从系统提示到用户查询再到模型回复的对话链条。其中，assistant字段可能内嵌<think>推理过程，为研究模型思维链提供了宝贵素材。数据来源于三个不同场景的高质量子集，包括已验证的软件工程问题、经过清洗的通用对话以及大规模推理任务，多元异构的组成极大提升了微调模型的泛化能力。

使用方法

数据集兼容HuggingFace datasets库，用户可一行代码直接加载：load_dataset('someoneatemylastsliceofpizza/claude-opus-4.7-merged', split='train')。针对Qwen3等模型的微调，提供了简洁的格式化函数，通过apply_chat_template将结构化字段转换为标准化的对话模板文本，无需额外处理复杂逻辑。无论是直接用于监督微调，还是作为推理能力蒸馏的基座数据，该数据集均能无缝融入主流训练流程，显著降低开发者预处理负担。

背景与挑战

背景概述

在大语言模型飞速迭代的当下，知识蒸馏与监督微调（SFT）已成为提升模型推理能力的关键技术路径。claude-opus-4.7-merged数据集由此应运而生，由社区贡献者于近期整合发布，旨在汇聚多个源自Claude Opus 4.7模型的优质对话数据。该数据集深度融合了SWE-Router、TeichAI与angrygiraffe三个社区数据集的精华，通过严格的去重与质量过滤，最终精炼出9250条高质量样本。其核心研究问题在于如何系统性地利用闭源模型输出，高效引导开源模型如Qwen3进行对齐训练。该数据集的出现，为知识蒸馏领域的可控复现与模型能力迁移提供了坚实的数据基础，对推动开源模型在复杂推理任务上的表现具有显著影响力。

当前挑战

该数据集所解决的领域挑战主要源于监督微调中数据质量与来源多样性难以兼得的困境。一方面，直接从闭源模型获取的高质量对话数据往往存在冗余、噪声与不一致性；另一方面，不同数据集在任务类型、对话结构及回答风格上的差异，使得融合后的数据难以保持统一的训练信号。在构建过程中，面临的关键挑战包括：从超过3.8万条原始数据中仅筛选出与claude-opus-4-7模型对齐的条目，并剔除含占位符的思考区块；对涉及软件工程验证等专业任务的子集（如swebench-verified）进行严格的答案正确性过滤；以及通过MD5哈希对首轮用户消息进行规范化去重，在保留多样性的同时消除冗余。这些措施共同确保了最终数据集的纯净度与可用性，但也以牺牲数据规模为代价，凸显了大模型蒸馏数据构建中质量与数量之间的根本张力。

常用场景

经典使用场景

在大语言模型飞速演进的浪潮中，高质量监督微调数据集的构建成为提升模型指令遵循与推理能力的核心杠杆。claude-opus-4.7-merged数据集为此而生，其最经典的用途在于对开源模型如Qwen3进行监督微调（SFT），使后者能够从Claude Opus 4.7的优质对话中习得丰富的交互模式。通过融合三个社区来源、经过去重与清洗后形成的9250条精细样本，该数据集为研究者在有限的算力预算下复现前沿闭源模型的对话风格与思考链条提供了标准化的训练素材，堪称知识蒸馏与模型能力迁移的浓缩桥梁。

解决学术问题

该数据集的诞生直击了学术界在大模型蒸馏研究中面临的若干关键痛点。一方面，它解决了高质量、多样化且来源可追溯的对话数据稀缺问题，通过合并不同领域的子集（涵盖软件工程验证与通用推理）并剔除重复与噪声，构建了兼具广度与纯度的基准测试床。另一方面，它系统性地回应了如何从闭源能力中提取可复用的决策逻辑这一长期挑战——研究者得以借助此数据集探究思维链（CoT）过程在微调中的迁移规律，评估蒸馏数据对模型事实性与鲁棒性的影响，从而为可控的模型对齐与能力复刻研究铺平了道路。

衍生相关工作

该数据集作为社区蒸馏实践的重要结晶，已催生出多条颇具启发的研究脉络。以Qwen3系列为代表的开源模型通过在此数据上实施监督微调，衍生了探讨蒸馏数据混合比例与模型性能之间权衡的实证分析。此外，该数据集所采用的去重与质量过滤流水线（基于MD5哈希与思维块剔除等策略）被后续工作借鉴，发展出更为系统的对话数据清洗框架。更有研究团队将其与原本的三大源头数据集对比，专门分析了去重与筛选对下游任务泛化能力的影响，产出了关于数据冗余与模型过拟合关系的宝贵洞见。

以上内容由遇见数据集搜集并总结生成