NetConfEval/NetConfEval

Name: NetConfEval/NetConfEval
Creator: NetConfEval
Published: 2024-05-14 11:43:53
License: 暂无描述

Hugging Face2024-05-14 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/NetConfEval/NetConfEval

下载链接

链接失效反馈

官方服务：

资源简介：

NetConfEval数据集旨在评估不同模型在促进和自动化网络配置方面的有效性。数据集包含四个主要任务：1) 将高级需求翻译为正式规范格式，评估模型将网络操作员的需求转换为正式规范的能力；2) 冲突检测，测试模型在正式规范翻译过程中检测简单冲突的能力；3) 开发路由算法，要求模型根据特定网络需求创建计算路由路径的函数；4) 生成低级配置，探索将高级需求转换为适合网络设备安装的详细低级配置。每个任务都有相应的数据集文件，并详细描述了数据集的格式和用途。

The NetConfEval dataset is designed to evaluate the effectiveness of various models in facilitating and automating network configuration. It includes four core tasks: 1) High-level requirement to formal specification translation: This task assesses models' ability to convert the requirements of network operators into formal specification formats; 2) Conflict detection: This task tests models' capacity to detect simple conflicts arising during the translation of formal specifications; 3) Routing algorithm development: This task requires models to develop functions for calculating routing paths based on specific network requirements; 4) Low-level configuration generation: This task explores the transformation of high-level requirements into detailed low-level configurations suitable for deployment on network devices. Each task has a corresponding dataset file, with comprehensive descriptions of the dataset's format and intended use cases.

提供机构：

NetConfEval

原始信息汇总

数据集概述

1. 数据集名称

名称: NetConfEval

2. 数据集配置

Formal Specification Translation
- 数据文件: step_1_spec_translation.jsonl
- 描述: 评估LLMs将网络运营商的需求转换为正式规范的能力。
- 数据格式: 每行包含迭代索引、总需求数、批次标识、批次大小、政策类型总数、描述、人类语言输入规范、预期JSON数据结构。
Translation Conflict Detection
- 数据文件: step_1_spec_conflict.jsonl
- 描述: 测试LLMs在正式规范翻译过程中检测“简单冲突”的能力。
- 数据格式: 每行包含迭代索引、总需求数、批次标识、批次大小、政策类型总数、冲突存在标识、描述、人类语言输入规范、预期JSON数据结构。
Routing Code Generation
- 数据文件: step_2_code_gen.jsonl
- 描述: 要求模型根据特定网络需求创建路由算法。
- 数据格式: 每行包含指令类型、政策类型、人类文本指令、测试用例。
Configuration Generation
- 数据文件: step_3_low_level.jsonl
- 描述: 探索将高层需求转换为适合安装在网络设备上的详细低层配置的问题。
- 数据格式: 每行包含场景名称、人类文本指令、预期配置。

3. 数据集用途

用于评估不同模型在自动化网络配置中的有效性。

4. 数据集格式

所有数据文件均为.jsonl格式，每行包含特定任务相关的多个字段，如迭代索引、需求数、政策类型等。

5. 数据集生成

数据集由预先生成的数据组成，可独立于测试环境使用。
生成脚本可在GitHub仓库中找到。

搜集汇总

数据集介绍

构建方式

NetConfEval数据集的构建涉及将网络配置的高层次需求转化为可形式化描述的数据结构，以及检测需求间的冲突、生成路由算法代码和生成低层次配置文件。该数据集通过从现有Config2Spec政策数据集中提取数据，并针对不同任务进行迭代和格式化处理，构建出适用于不同评估任务的数据集。每项任务的数据均以.jsonl文件格式存储，包含迭代索引、需求总数、批次标识、批量大小、策略类型总数、需求描述、人类语言规范和预期的JSON数据结构。

特点

该数据集的特点在于其全面覆盖了网络配置自动化的多个关键环节，包括需求的规范转换、冲突检测、路由算法的开发以及低层次配置的生成。数据集特别设计为可独立于测试环境使用，且提供了丰富的测试用例以验证生成的代码的正确性。此外，数据集还包含真实世界的网络场景，使得模型可以在接近实际应用的条件下进行评估。

使用方法

使用NetConfEval数据集时，研究者可以依据.jsonl文件中的描述和预期结果，对模型进行训练和评估。数据集提供了详细的测试脚本和验证方法，以确保生成的代码和配置满足网络配置的要求。用户需要遵循数据集中的指示，将模型输出的代码片段替换到测试文件中，并使用pytest运行测试用例。对于低层次配置的生成，用户需将生成的配置与预期的配置进行对比，以评估模型的准确性。

背景与挑战

背景概述

NetConfEval数据集的研究起源于网络配置自动化领域，旨在评估大型语言模型（LLM）在网络配置任务中的辅助和自动化能力。该数据集由研究人员于近年来创建，并在论文《NetConfEval: Can LLMs Facilitate Network Configuration?》中详细阐述。主要研究人员来自于多个机构，他们共同关注的核心研究问题是LLM在翻译网络操作员需求、检测规范翻译中的冲突、开发路由算法以及生成低级别配置方面的表现。NetConfEval数据集的出现，为网络配置自动化领域提供了新的研究工具和视角，对相关领域产生了积极的影响。

当前挑战

该数据集在构建过程中面临的挑战主要包括：如何精确地评估LLM在处理网络配置任务中的性能，以及如何生成既具有代表性又能够涵盖广泛网络场景的数据。具体到数据集的挑战，包括但不限于：确保翻译需求到形式规范格式的准确性，有效检测形式规范翻译中的简单冲突，根据特定网络要求生成正确的路由算法，以及将高级需求转换为适用于网络设备安装的低级配置。这些挑战不仅要求LLM具备强大的理解和生成能力，也考验着数据集构建者的智慧和技巧。

常用场景

经典使用场景

NetConfEval数据集针对网络配置自动化领域，提供了评测不同模型在将网络操作员需求转化为形式化规范、检测规范翻译中的冲突、开发路由算法以及生成低级别配置等方面的能力基准。该数据集的经典使用场景在于评估大型语言模型在理解和转换网络高阶需求为具体配置指令方面的表现，从而实现网络配置的自动化。

衍生相关工作

基于NetConfEval数据集，学术界和工业界已经衍生出一系列相关工作，如进一步探索网络配置自动化中的模型优化、冲突检测算法的改进、以及结合实际网络环境进行配置生成的实证研究，这些工作推动了网络管理领域的技术进步。

数据集最近研究