chanwit/gemma4-cub-agent-v11

Name: chanwit/gemma4-cub-agent-v11
Creator: chanwit
Published: 2026-04-10 16:46:10
License: 暂无描述

Hugging Face2026-04-10 更新2026-04-12 收录

下载链接：

https://hf-mirror.com/datasets/chanwit/gemma4-cub-agent-v11

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: apache-2.0 language: - en tags: - gemma-4 - tool-calling - agent - confighub - kubernetes - devops - reasoning size_categories: - 1K<n<10K --- # gemma4-cub-agent-v11 Fine-tuning dataset for a Gemma-4 based ConfigHub/Kubernetes DevOps agent. ## What's new in v11 Builds on v10 (chanwit/gemma4-cub-agent-v10) with: - **Schema-verified command correctness** — every `cub` command in the dataset validated against the real cobra command tree from `github.com/confighub/sdk`. A stripped-down stub-cub fork was built to extract the full flag/arg/subcommand schema (266 commands) which was then used to auto-validate every training example. - **Known bug classes fixed:** - 21 × `cub k8s source ... --space X` → `--namespace X` (k8s source queries live K8s via kubeconfig, not a ConfigHub space) - 6 × `cub unit tag` positional ordering (correct form: `cub unit tag <tag> --unit <unit>`) - 6 dropped entries with unrecoverable positional-arg mismatches - **Expanded coverage** (new in v11): - 140 value-variation drills (set-replicas N, set-container-image, set-env-var, set-annotation, changeset --description, tag create) with varying values - 60 full 4-step workflow examples (`cub k8s source` → `--help` → `cub function do` → `cub unit apply`) - 80 reasoning/action-matched examples (thinking block explicitly names the command it generates) - 170 flag-pattern drills across underrepresented subcommands - 25 vocabulary mappings (umbrella terms → concrete kubectl kinds) - 55 counter-examples disambiguating `cub unit get` metadata vs `cub function do get-*` workload state - **Regression coverage:** 25/25 known bug classes from v5-v10 verified present in training data via `scripts/eval/sanity_check_dataset.py`. ## Statistics - **Total entries**: 7,114 - **Tool-calling entries**: 1,774 (25%) - **Reasoning entries**: 5,340 (75%) - **Total cub commands**: 4,837 - **Invalid commands**: 0 - **Format**: Gemma-4 text-only (`<|turn>system / user / model / tool<turn|>`) ## Intended training config - Base: `unsloth/gemma-3-27b-it-bnb-4bit` or equivalent Gemma-4 31B - LoRA: r=16, alpha=16 - Epochs: 2 - Learning rate: 2e-5 - train_on_responses_only ## License Apache 2.0

提供机构：

chanwit

搜集汇总

数据集介绍

构建方式

该数据集专为基于Gemma-4的ConfigHub/Kubernetes DevOps智能体微调而设计。在v10版本基础上，v11版本进行了深度架构优化：首先通过从真实Cobra命令树中提取完整的标志、参数及子命令模式（涵盖266条命令），构建精简的stub-cub分支，以此对数据集内的每条`cub`命令进行模式验证，确保命令正确性。其次，系统性地修复了已知的bug类别，包括将`cub k8s source ... --space X`修正为`--namespace X`、调整`cub unit tag`的位置参数顺序等，并删除了6条无法恢复的参数不匹配条目。最后，新增了大量覆盖性数据，包括140条值变化练习、60条完整四步工作流示例、80条推理/动作匹配示例、170条标志模式练习、25条词汇映射及55条反例，以强化模型对复杂场景的理解。

特点

数据集总计包含7,114条样本，呈现出鲜明的结构特点。其中工具调用条目占25%（1,774条），推理条目占75%（5,340条），二者有机结合，既训练模型执行具体命令的能力，又培养其深思熟虑的推理习惯。所有`cub`命令（共4,837条）均通过模式验证，无效命令数为零，确保了训练数据的纯净度。此外，数据集对v5至v10版本中已知的25类bug进行了回归验证，确认这些案例均出现在训练数据中，从而有效防止模型复现历史错误。数据采用Gemma-4纯文本格式，以`<|turn>system / user / model / tool<turn|>`标记划分轮次，结构清晰。

使用方法

使用该数据集进行微调时，推荐以`unsloth/gemma-3-27b-it-bnb-4bit`或等效Gemma-4 31B模型为基础，采用LoRA方法，设置秩为16、Alpha为16。训练轮次设为2轮，学习率取2e-5，并启用`train_on_responses_only`选项，即仅对模型生成的响应部分计算损失，以提升微调效率与针对性。数据集遵循Apache 2.0许可证，支持自由使用与分发。用户可直接从Hugging Face平台加载数据，结合上述配置开展智能体的指令遵循与工具调用能力训练。

背景与挑战

背景概述

在 DevOps 与云原生技术日益普及的背景下，Kubernetes 集群的配置管理成为关键难题。gemma4-cub-agent-v11 数据集由 Chanwit 等人于 2025 年创建，旨在微调基于 Gemma-4 的 ConfigHub/Kubernetes 智能体，以提升其工具调用与推理能力。该数据集聚焦于使大语言模型准确理解并执行 `cub` 命令行工具（一个面向 Kubernetes 的配置管理工具）的复杂子命令与标志，核心研究问题在于如何通过结构化数据增强模型在真实 DevOps 工作流中的指令遵循与错误规避能力。作为该系列第 11 个版本，它不仅巩固了此前对已知错误类的修复，还通过大规模扩展训练样本覆盖范围，为社区提供了首个经过完整模式验证的配置管理智能体微调数据集，对推动大语言模型在运维自动化领域落地具有重要实践价值。

当前挑战

gemma4-cub-agent-v11 数据集及其对应任务面临多重挑战。在领域问题层面，核心挑战在于如何让语言模型准确理解具有严格语法结构的命令行接口（如 266 个命令的层次化模式），并精准区分语义相近但功能迥异的子命令（如 `cub unit get` 与 `cub function do get-*`），避免生成错误命令导致生产环境风险。在构建过程中，挑战尤为突出：需构建精简版 cobra 命令树以自动化验证全部 4,837 条命令的有效性；需系统性地修复此前版本中遗留的 21 条空间参数误用、6 条位置排序错误等 Bug 类；还需通过 140 个值变化练习、60 个四步工作流样本等方式，在保持数据质量的同时，对抗微调中的灾难性遗忘问题，确保模型在吸收新知识时维持对旧有模式的稳健性能。

常用场景

经典使用场景

gemma4-cub-agent-v11 数据集专为训练基于 Gemma-4 的 ConfigHub/Kubernetes DevOps 智能体而设计，其经典使用场景聚焦于提升模型在复杂命令行工具调用与运维推理任务中的表现。该数据集包含 7,114 条精心标注的样本，其中 25% 为工具调用示例，75% 为推理示例，覆盖了从基础命令验证到多步骤工作流（如 `cub k8s source` 至 `cub unit apply` 的四步流程）的广泛操作。通过 schema 验证机制确保每个 `cub` 命令的语法正确性，数据集特别适用于微调大型语言模型，使其能够准确理解并执行 DevOps 场景下的结构化指令，从而在智能体环境中实现可靠的任务分解与执行。

衍生相关工作

基于 gemma4-cub-agent-v11 数据集，衍生工作主要围绕智能体验证框架与领域特定微调策略展开。一方面，研究者可借鉴其 schema 验证方法，构建通用工具调用评估套件，用于检测其他命令行界面（如 AWS CLI 或 kubectl）中的系统性错误。另一方面，数据集中 25/25 回归测试的实践催生了自动化的错误注入与修复循环范式，推动了持续学习在运维场景中的落地。此外，Gemma-4 模型在此数据集上的微调配置（如 LoRA 参数与学习率选择）为大型语言模型在低资源领域的适配提供了基线，激发了针对推理-工具串联（reasoning-action matching）的优化变体。这些工作共同构建了从命令生成到验证再到修复的完整闭环，为未来 DevOps 智能体的可靠性研究奠定了关键基础。

数据集最近研究