chanwit/gemma4-cub-agent-v11
收藏Hugging Face2026-04-10 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/chanwit/gemma4-cub-agent-v11
下载链接
链接失效反馈官方服务:
资源简介:
---
license: apache-2.0
language:
- en
tags:
- gemma-4
- tool-calling
- agent
- confighub
- kubernetes
- devops
- reasoning
size_categories:
- 1K<n<10K
---
# gemma4-cub-agent-v11
Fine-tuning dataset for a Gemma-4 based ConfigHub/Kubernetes DevOps agent.
## What's new in v11
Builds on v10 (chanwit/gemma4-cub-agent-v10) with:
- **Schema-verified command correctness** — every `cub` command in the dataset
validated against the real cobra command tree from `github.com/confighub/sdk`.
A stripped-down stub-cub fork was built to extract the full flag/arg/subcommand
schema (266 commands) which was then used to auto-validate every training
example.
- **Known bug classes fixed:**
- 21 × `cub k8s source ... --space X` → `--namespace X` (k8s source queries
live K8s via kubeconfig, not a ConfigHub space)
- 6 × `cub unit tag` positional ordering (correct form: `cub unit tag <tag> --unit <unit>`)
- 6 dropped entries with unrecoverable positional-arg mismatches
- **Expanded coverage** (new in v11):
- 140 value-variation drills (set-replicas N, set-container-image, set-env-var, set-annotation, changeset --description, tag create) with varying values
- 60 full 4-step workflow examples (`cub k8s source` → `--help` → `cub function do` → `cub unit apply`)
- 80 reasoning/action-matched examples (thinking block explicitly names the command it generates)
- 170 flag-pattern drills across underrepresented subcommands
- 25 vocabulary mappings (umbrella terms → concrete kubectl kinds)
- 55 counter-examples disambiguating `cub unit get` metadata vs `cub function do get-*` workload state
- **Regression coverage:** 25/25 known bug classes from v5-v10 verified present
in training data via `scripts/eval/sanity_check_dataset.py`.
## Statistics
- **Total entries**: 7,114
- **Tool-calling entries**: 1,774 (25%)
- **Reasoning entries**: 5,340 (75%)
- **Total cub commands**: 4,837
- **Invalid commands**: 0
- **Format**: Gemma-4 text-only (`<|turn>system / user / model / tool<turn|>`)
## Intended training config
- Base: `unsloth/gemma-3-27b-it-bnb-4bit` or equivalent Gemma-4 31B
- LoRA: r=16, alpha=16
- Epochs: 2
- Learning rate: 2e-5
- train_on_responses_only
## License
Apache 2.0
提供机构:
chanwit
搜集汇总
数据集介绍

构建方式
该数据集专为基于Gemma-4的ConfigHub/Kubernetes DevOps智能体微调而设计。在v10版本基础上,v11版本进行了深度架构优化:首先通过从真实Cobra命令树中提取完整的标志、参数及子命令模式(涵盖266条命令),构建精简的stub-cub分支,以此对数据集内的每条`cub`命令进行模式验证,确保命令正确性。其次,系统性地修复了已知的bug类别,包括将`cub k8s source ... --space X`修正为`--namespace X`、调整`cub unit tag`的位置参数顺序等,并删除了6条无法恢复的参数不匹配条目。最后,新增了大量覆盖性数据,包括140条值变化练习、60条完整四步工作流示例、80条推理/动作匹配示例、170条标志模式练习、25条词汇映射及55条反例,以强化模型对复杂场景的理解。
特点
数据集总计包含7,114条样本,呈现出鲜明的结构特点。其中工具调用条目占25%(1,774条),推理条目占75%(5,340条),二者有机结合,既训练模型执行具体命令的能力,又培养其深思熟虑的推理习惯。所有`cub`命令(共4,837条)均通过模式验证,无效命令数为零,确保了训练数据的纯净度。此外,数据集对v5至v10版本中已知的25类bug进行了回归验证,确认这些案例均出现在训练数据中,从而有效防止模型复现历史错误。数据采用Gemma-4纯文本格式,以`<|turn>system / user / model / tool<turn|>`标记划分轮次,结构清晰。
使用方法
使用该数据集进行微调时,推荐以`unsloth/gemma-3-27b-it-bnb-4bit`或等效Gemma-4 31B模型为基础,采用LoRA方法,设置秩为16、Alpha为16。训练轮次设为2轮,学习率取2e-5,并启用`train_on_responses_only`选项,即仅对模型生成的响应部分计算损失,以提升微调效率与针对性。数据集遵循Apache 2.0许可证,支持自由使用与分发。用户可直接从Hugging Face平台加载数据,结合上述配置开展智能体的指令遵循与工具调用能力训练。
背景与挑战
背景概述
在 DevOps 与云原生技术日益普及的背景下,Kubernetes 集群的配置管理成为关键难题。gemma4-cub-agent-v11 数据集由 Chanwit 等人于 2025 年创建,旨在微调基于 Gemma-4 的 ConfigHub/Kubernetes 智能体,以提升其工具调用与推理能力。该数据集聚焦于使大语言模型准确理解并执行 `cub` 命令行工具(一个面向 Kubernetes 的配置管理工具)的复杂子命令与标志,核心研究问题在于如何通过结构化数据增强模型在真实 DevOps 工作流中的指令遵循与错误规避能力。作为该系列第 11 个版本,它不仅巩固了此前对已知错误类的修复,还通过大规模扩展训练样本覆盖范围,为社区提供了首个经过完整模式验证的配置管理智能体微调数据集,对推动大语言模型在运维自动化领域落地具有重要实践价值。
当前挑战
gemma4-cub-agent-v11 数据集及其对应任务面临多重挑战。在领域问题层面,核心挑战在于如何让语言模型准确理解具有严格语法结构的命令行接口(如 266 个命令的层次化模式),并精准区分语义相近但功能迥异的子命令(如 `cub unit get` 与 `cub function do get-*`),避免生成错误命令导致生产环境风险。在构建过程中,挑战尤为突出:需构建精简版 cobra 命令树以自动化验证全部 4,837 条命令的有效性;需系统性地修复此前版本中遗留的 21 条空间参数误用、6 条位置排序错误等 Bug 类;还需通过 140 个值变化练习、60 个四步工作流样本等方式,在保持数据质量的同时,对抗微调中的灾难性遗忘问题,确保模型在吸收新知识时维持对旧有模式的稳健性能。
常用场景
经典使用场景
gemma4-cub-agent-v11 数据集专为训练基于 Gemma-4 的 ConfigHub/Kubernetes DevOps 智能体而设计,其经典使用场景聚焦于提升模型在复杂命令行工具调用与运维推理任务中的表现。该数据集包含 7,114 条精心标注的样本,其中 25% 为工具调用示例,75% 为推理示例,覆盖了从基础命令验证到多步骤工作流(如 `cub k8s source` 至 `cub unit apply` 的四步流程)的广泛操作。通过 schema 验证机制确保每个 `cub` 命令的语法正确性,数据集特别适用于微调大型语言模型,使其能够准确理解并执行 DevOps 场景下的结构化指令,从而在智能体环境中实现可靠的任务分解与执行。
衍生相关工作
基于 gemma4-cub-agent-v11 数据集,衍生工作主要围绕智能体验证框架与领域特定微调策略展开。一方面,研究者可借鉴其 schema 验证方法,构建通用工具调用评估套件,用于检测其他命令行界面(如 AWS CLI 或 kubectl)中的系统性错误。另一方面,数据集中 25/25 回归测试的实践催生了自动化的错误注入与修复循环范式,推动了持续学习在运维场景中的落地。此外,Gemma-4 模型在此数据集上的微调配置(如 LoRA 参数与学习率选择)为大型语言模型在低资源领域的适配提供了基线,激发了针对推理-工具串联(reasoning-action matching)的优化变体。这些工作共同构建了从命令生成到验证再到修复的完整闭环,为未来 DevOps 智能体的可靠性研究奠定了关键基础。
数据集最近研究
最新研究方向
该数据集聚焦于基于Gemma-4大语言模型构建的ConfigHub/Kubernetes DevOps智能体微调,代表了将LLM能力与云原生工具链深度融合的前沿方向。v11版本通过引入对266个Cobra命令树的真实模式验证,实现了零无效命令的严格质量控制,并系统修复了v5至v10版本中积累的21类命名空间混淆、参数排序错误等已知缺陷。新增的140条参数变体练习、60条四步骤工作流样本以及80条推理行为匹配实例,显著提升了智能体在复杂运维场景下的泛化能力与操作准确性。这一工作不仅为自动化集群管理提供了高可靠性的训练数据范式,更推动了AI Agent在DevOps领域从实验性应用向生产级部署的关键跨越。
以上内容由遇见数据集搜集并总结生成



