coding-sft-mix-50k

Hugging Face2026-03-04 更新2026-03-05 收录

下载链接：

https://huggingface.co/datasets/goodknightleo/coding-sft-mix-50k

下载链接

链接失效反馈

官方服务：

资源简介：

Coding SFT Mix 50K 是一个专为本地 Claude Code 和 Ollama 兼容性定制的代码监督微调数据集。该数据集包含 50,000 条数据，其中 20,000 条为清理过的源数据，30,000 条为合成的 Claude Code/API 数据。数据集设计目标包括：移除监督响应中的 Qwen 风格思维块污染，偏向于本地代理工作流中的可操作编码行为，包含 Anthropic Messages API 风格的 'tool_use'/'tool_result' 内容模式，以及 'ollama launch claude' 设置和故障排除对话。数据集特别强调多轮记忆、意图修复和工具优先路由的合成数据权重。该数据集适用于文本生成任务，特别是与代码相关的指令调优场景。

创建时间：

2026-02-27

原始信息汇总

Coding SFT Mix 50K 数据集概述

基本信息

数据集名称: Coding SFT Mix 50K (Claude Code Custom Rebuild)
发布者/维护者: goodknightleo
语言: 英语 (en)
主要标签: 代码 (code)、指令微调 (instruction-tuning)、chatml、training-studio、claude-code-compatible、anthropic-api-compatible
任务类别: 文本生成 (text-generation)
数据规模: 介于10K到100K之间 (10K<n<100K)
配置名称: default
数据文件: train 分割，路径为 data/train-*

数据集描述

这是一个为本地 Claude Code 与 Ollama 兼容性而定制重建的代码监督微调数据集。

版本与统计 (发布于2026-03-04)

总数据行数: 50000
保留的已清理源数据行数: 20000
合成的 Claude Code/API 数据行数: 30000
已清理助手消息中 <think> 污染的数量: 0
丢弃的拒绝/防御性数据行数: 0
丢弃的非 Anthropic 语法数据行数: 0

设计目标

从监督响应中移除 Qwen 风格的思维块污染。
强烈偏向于在本地智能体工作流中可执行的编码行为。
包含 Anthropic Messages API 风格的 tool_use / tool_result 内容模式。
包含 ollama launch claude 设置和故障排除对话。
在合成数据中侧重多轮记忆、意图修复和工具优先路由。
强制执行拒绝过滤: true
强制执行仅限 Anthropic 语法过滤: true

合成数据权重分布

json { "setup": 1, "tool_flow": 2, "code_edit": 1, "api_compat": 2, "memory_continuity": 4, "intent_repair": 4, "tool_routing": 3 }

数据加载方式

python from datasets import load_dataset ds = load_dataset("goodknightleo/coding-sft-mix-50k", split="train") print(ds[0])

搜集汇总

数据集介绍

构建方式

在代码生成与指令调优领域，数据质量直接影响模型性能。本数据集通过精心筛选与合成构建而成，首先从原始数据中保留了20000条经过清洗的纯净样本，确保基础代码指令的可靠性。随后，基于Claude Code及API的交互模式，生成了30000条合成数据，这些数据严格遵循Anthropic消息API的格式规范，并融入了工具使用与结果反馈的内容模式。构建过程中，所有不符合Anthropic语法或包含拒绝防御性内容的样本均被剔除，同时彻底清除了助手消息中可能存在的思维块污染，从而保障了数据的一致性与可用性。

特点

该数据集在设计上聚焦于提升本地智能体工作流的实际编码能力，其核心特点体现在对多轮对话记忆与意图修复的强化。通过设置合成权重，数据显著偏向于工具优先路由、内存连续性及意图修复等关键场景，例如工具流程与API兼容性各占两分权重，而记忆连续性与意图修复则高达四分。此外，数据集专门包含了Ollama启动Claude的配置与故障排除对话，并严格过滤了非Anthropic语法及拒绝响应，确保数据格式的纯净与行为导向的明确性，为模型训练提供了高度结构化的指令调优资源。

使用方法

为有效利用本数据集进行模型训练，用户可直接通过Hugging Face的datasets库加载数据。使用Python代码调用load_dataset函数，指定数据集名称与训练分割，即可便捷访问全部50000条样本。数据以ChatML格式组织，兼容本地Claude Code与Ollama环境，适用于文本生成任务中的指令调优。在训练过程中，建议结合合成权重分布，重点关注工具交互与多轮对话场景，以优化模型在代码生成与代理工作流中的实际表现，从而推动代码智能体技术的进一步发展。

背景与挑战

背景概述

在人工智能与软件工程交叉领域，代码生成与指令微调已成为推动智能编程助手发展的核心技术。Coding SFT Mix 50K数据集于2026年3月由研究社区发布，旨在构建一个兼容本地Claude Code与Ollama框架的高质量监督微调资源。该数据集聚焦于提升代码生成模型在复杂工作流中的实际效能，其核心研究问题在于如何通过精心设计的合成数据与严格过滤机制，消除模型响应中的无关思维链污染，并强化其在多轮对话、工具调用及意图修复等场景下的行为一致性。通过整合Anthropic Messages API风格的工具交互模式，该数据集为开发可靠的本地编码智能体提供了关键训练基础，对促进代码生成模型的实用化与生态兼容性具有显著影响。

当前挑战

该数据集致力于解决代码生成领域智能体在真实工作流中行为可控性与鲁棒性的挑战，具体包括模型在多轮交互中保持记忆连贯性、准确进行工具路由选择，以及有效执行意图修复等复杂任务。在构建过程中，研究团队面临多重技术难题：首要挑战在于彻底清洗监督响应中的Qwen风格思维块污染，确保训练数据的纯净性；其次，需通过合成数据生成策略，在代码编辑、API兼容、工具流程等维度实现加权平衡，以强化模型的可操作编码倾向；此外，严格实施拒绝响应过滤与Anthropic专用语法筛选，保障了数据集与目标生态的高度兼容，但同时也对数据多样性与覆盖范围提出了更高要求。

常用场景

经典使用场景

在代码生成与智能编程助手领域，Coding SFT Mix 50K数据集被广泛用于监督微调（SFT）任务，以提升模型在代码编写、编辑及工具调用方面的能力。该数据集特别强调多轮对话中的记忆连续性、意图修复与工具优先路由，为训练本地代理工作流中的编码行为提供了高质量的指令-响应对。其设计目标明确指向消除思维块污染，确保响应直接可执行，从而在代码生成、API兼容性测试及Ollama环境部署等场景中发挥核心作用。

实际应用

在实际应用中，Coding SFT Mix 50K数据集支持本地Claude Code与Ollama的兼容性调试，助力开发者构建高效的编程助手。它能够训练模型处理代码编辑、API集成及多步骤工具调用等复杂任务，适用于软件开发、自动化测试以及智能编程教育平台。通过强调工具优先路由与记忆连续性，该数据集提升了智能体在真实工作流中的稳定性和响应准确性，推动了代码生成技术向生产环境的落地。

衍生相关工作

基于该数据集衍生的经典工作主要集中在代码生成模型的监督微调与工具集成领域。研究者利用其结构化工具使用模式开发了增强型编程助手，支持多轮对话中的意图修复与记忆管理。同时，该数据集促进了Anthropic API兼容性框架的优化，以及本地代理工作流中代码行为偏置的标准化研究，为后续代码智能体在复杂环境下的性能评估与改进提供了重要参考。

以上内容由遇见数据集搜集并总结生成