Cornetto

Name: Cornetto
Creator: 苏黎世联邦理工学院
Published: 2026-04-24 20:53:07
License: 暂无描述

arXiv2026-04-24 更新2026-04-28 收录

下载链接：

https://github.com/nsg-ethz/cornetto

下载链接

链接失效反馈

官方服务：

资源简介：

Cornetto是由苏黎世联邦理工学院开发的网络配置修复基准数据集，包含231个跨不同拓扑（20-754节点）和协议的复杂错误配置场景。该数据集通过语法生成和语义约束合成技术构建，确保配置的结构合理性和现实相关性，并采用差分数据平面分析验证功能正确性。其核心应用于评估大语言模型在网络自动化运维中的诊断与修复能力，为解决关键基础设施中配置错误的可靠修复提供标准化测试框架。

提供机构：

苏黎世联邦理工学院

创建时间：

2026-04-24

搜集汇总

数据集介绍

构建方式

在网络运维领域，大型语言模型展现出的自动化潜力与安全隐患并存，亟需严谨的基准测试来评估其修复网络配置的能力。Cornetto数据集应运而生，其构建遵循一套精心设计的生成管线：首先从真实网络拓扑库中分层抽取三种规模（<50、50–100、>100节点）的拓扑，其次利用涵盖eBGP、iBGP、OSPF、IS-IS等协议的27种故障函数库，通过两两覆盖采样策略组合出50组故障集，再对每组故障集在三个尺度拓扑上各实例化一次，最终在语法生成框架Metha的基础上，融入逻辑规划与语义约束，依次生成黄金态正确配置、注入故障得到受损配置，并借助Batfish执行差分数据平面分析，提炼出明确的违规规约，从而产出231个兼具多样性与现实意义的故障修复场景。

特点

Cornetto数据集在设计与规模上展现出鲜明的特质。其最大特征在于复杂性维度的全面覆盖：拓扑节点数横跨20至754个，网络配置多达20万行代码，而故障仅修改平均0.44%的行数却能引发高达49.8%的转发行为变异，这种细微扰动与广泛影响之间的巨大反差，精准模拟了生产环境中的诊断难题。此外，数据集内置了三类难度调控因子——拓扑规模、并发故障数量（1至8个）与故障类型，并通过成对覆盖算法在仅231个场景中实现了所有故障对的完全覆盖，避免了冗余测试。尤为关键的是，所有场景均附带形式化验证可获得的地面真值规约，确保评估基于功能正确性而非文本相似度，从而规避了代理指标的误导性。

使用方法

使用Cornetto数据集时，研究者需遵循标准化的故障排查工作流：系统接收包含拓扑、受损配置与违规规约的结构化输入，要求模型依次完成故障设备定位、根因诊断文本描述，以及基于搜索-替换格式的配置修复提案。评估框架通过Batfish模拟修复后网络的数据平面，将其与黄金态规约进行差分比较，核心产出两个量化指标：Fix Score反映初始违规的修复比例，Regression Rate量化新引入的违规程度。此外，诊断质量通过LLM-as-a-Judge方法，由多个高级语言模型对诊断的完整性与准确性进行评分。该框架支持全量上下文、Oracle上下文及检索增强等多种信息输入策略，并可无缝扩展至RAG与多智能体系统等高级架构，为自动化网络修复研究提供了标准化的实验平台。

背景与挑战

背景概述

随着大型语言模型（LLM）在自动化网络运维领域展现出巨大潜力，如何系统性地评估其在复杂网络配置修复中的可靠性与安全性成为亟待解决的问题。Cornetto 数据集由瑞士苏黎世联邦理工学院（ETH Zürich）的 Ioannis Protogeros、Rufat Asadli、Benjamin Hoffman 和 Laurent Vanbever 等人于 2026 年提出，旨在填补现有基准在端到端配置修复评估方面的空白。该数据集聚焦于一个核心研究问题：LLM 能否在多样化、大规模且协议相互依赖的网络环境中，准确诊断并修复配置错误，同时避免引入新的故障。通过构建包含 231 个误配置场景的测试集，Cornetto 为衡量 LLM 在真实网络运维中的推理与修复能力提供了标准化测试平台，推动了自动化网络管理领域的可信评估进程。

当前挑战

Cornetto 所应对的核心挑战包括：首先，网络配置修复任务需要模型在庞大的配置文件中定位少量导致功能异常的代码行，这对 LLM 的推理能力与上下文处理能力提出了极高要求；其次，现有基准多依赖文本相似度或简单连通性验证作为代理指标，无法保证修复方案在功能上的正确性与安全性。在构建过程中，Cornetto 面临多重困难：真实网络配置因涉及商业机密而无法公开获取，必须通过语法生成与语义约束合成合理的配置样本；同时，为确保测试场景的多样性与复杂性，需在故障类型、拓扑规模（20 到 754 节点）与多故障并发等维度上进行高效采样，以极小规模的测试集覆盖全部关键故障组合，这要求精密的场景协调与优化算法。

常用场景

经典使用场景

在网络运维领域，大型语言模型（LLM）的崛起为自动化配置修复带来了曙光，然而其可靠性与安全性尚待严谨评估。Cornetto数据集正是为此而生，其经典使用场景在于评估LLM驱动的网络配置修复能力。该数据集通过生成涵盖20至754节点、跨越eBGP、iBGP、OSPF、IS-IS等多种协议的231个真实且复杂的错误配置场景，要求模型在给定拓扑、错误配置文件和违反的规范（如可达性、隔离性、路径点）后，完成故障定位、根因诊断以及配置修复，最终通过形式化验证衡量修复的功能正确性与安全性。

衍生相关工作

Cornetto数据集的提出催生了一系列衍生研究工作。其一，基于其评估框架，研究者开发了更先进的提示策略（如链式思考）和检索增强生成方法，以提升模型在噪声数据中的信息定位能力。其二，多智能体系统被引入，通过分工协作完成故障诊断、验证与修复，弥补了单体LLM在并发故障处理上的不足。此外，Cornetto启发了面向特定协议（如SRv6）的专用基准数据集，以及融合形式化验证与LLM的闭环自动化系统的架构设计，推动了网络自动化领域从“单一模型尝试”向“系统化安全修复”的范式演进。

数据集最近研究