five

NETPRESS

收藏
arXiv2025-06-03 更新2025-06-06 收录
下载链接:
https://github.com/Froot-NetSys/NetPress
下载链接
链接失效反馈
官方服务:
资源简介:
NETPRESS是一个为评估在现实世界网络应用中的大型语言模型(LLM)代理而设计的自动基准生成框架。该框架引入了状态和动作的统一抽象,支持动态生成多样化的查询集和相应的真实值。用户可以在运行时指定基准配置,以即时生成数百万个查询。除了动态基准构建外,NETPRESS还与网络模拟器集成,以提供真实的环境反馈,支持在正确性、安全性和延迟方面的全面评估。该框架在三个具有代表性的网络应用中进行了实例化,揭示了代理行为中细微的差异,这是静态的、仅正确性基准通常无法发现的。NETPRESS将LLM评估推向现实、可扩展的基础设施中心领域的测试,有助于缩小基准性能和现实世界部署准备之间的差距。

NETPRESS is an automated benchmark generation framework designed for evaluating Large Language Model (LLM) agents in real-world web applications. This framework introduces a unified abstraction of states and actions, enabling the dynamic generation of diverse query sets and their corresponding ground truths. Users can specify benchmark configurations at runtime to generate millions of queries on the fly. In addition to dynamic benchmark construction, NETPRESS also integrates with web simulators to provide authentic environmental feedback, enabling comprehensive evaluations across correctness, safety, and latency. The framework has been instantiated in three representative web applications, revealing subtle discrepancies in agent behaviors that static, correctness-only benchmarks typically fail to detect. By bringing LLM evaluation into the realm of testing on realistic, scalable infrastructure, NETPRESS helps bridge the gap between benchmark performance and real-world deployment readiness.
提供机构:
马里兰大学、微软研究院、伊利诺伊大学厄巴纳-香槟分校
创建时间:
2025-06-03
搜集汇总
数据集介绍
main_image_url
构建方式
NETPRESS采用基于状态-动作抽象的统一框架,通过随机采样和组合式查询生成技术动态构建网络应用评测基准。该框架将网络任务建模为有限状态转换系统(S, A, E),支持从初始状态s0通过参数化动作序列{a0(θ0),...,aT-1(θT-1)}实现状态演化。针对构造型任务,系统自动生成包含预定义动作序列的完整解决方案;对于反应型任务,则通过隐藏故障注入序列创建需诊断的故障状态。通过与Mininet等网络仿真器深度集成,实现了动作执行的环境反馈验证。
特点
NETPRESS的核心特性体现在三维度动态评估体系:正确性通过最终状态匹配验证,安全性检查每步状态转换是否违反约束条件,延迟则记录问题解决耗时。系统支持千万级查询的实时生成,通过分层复杂度控制(基础操作→组合操作→控制流嵌套)实现任务难度梯度分布。独特的多轮交互验证机制可捕捉传统静态基准易忽视的细粒度行为差异,如GPT-4o在复杂路由任务中表现出激进修复倾向,而QWen模型则呈现过度保守特征。
使用方法
使用NETPRESS需通过YAML配置文件定义基准参数,包括任务类型(容量规划/路由排障/K8s策略)、复杂度层级和查询规模。系统自动生成自然语言查询及对应状态空间,用户可通过REST API获取动态评测集。评估阶段支持两种模式:离线批处理模式执行全量测试并生成三维度指标报告;交互式调试模式允许逐步观察LLM代理的状态推理过程。高级用户可扩展动作空间定义,或集成自定义网络模拟器实现领域适配。所有实验数据及可视化看板可通过Github仓库提供的CLI工具管理。
背景与挑战
背景概述
NETPRESS是由马里兰大学、微软研究院和伊利诺伊大学厄巴纳-香槟分校的研究团队于2025年提出的动态基准生成框架,旨在解决大型语言模型(LLM)在网络应用领域评估中的局限性。该数据集通过状态-动作抽象和网络仿真器集成,实现了动态查询生成与多维度验证,覆盖了数据中心容量规划、路由错误配置和微服务策略排障三大典型场景。其创新性在于突破了传统静态评估的数据污染和规模限制,为网络自动化任务的可靠性验证提供了标准化测试环境,对提升AI在网络运维等高风险领域的部署安全性具有里程碑意义。
当前挑战
NETPRESS面临的挑战主要体现在领域问题和构建过程两个维度。在领域层面,网络应用的系统级特性导致传统动态生成方法失效,如路由故障诊断需多轮交互而非确定性输出验证,且需兼顾操作正确性、安全性和延迟等多重约束。构建过程中,需攻克三大技术难点:1) 网络状态空间与动作空间的统一建模,以支持组合式查询生成;2) 与Mininet等仿真器的实时交互验证机制设计;3) 千万级动态查询的自动化真值标注。这些挑战使得网络领域LLM评估的复杂度远超常规数学推理或程序生成任务。
常用场景
经典使用场景
NETPRESS数据集在评估大型语言模型(LLM)代理在网络应用中的性能方面具有经典使用场景。通过动态生成多样化的查询集和相应的真实数据,NETPRESS能够模拟复杂的网络操作任务,如数据中心容量规划、路由错误配置和微服务策略故障排除。这些任务不仅要求模型生成正确的输出,还需确保操作的安全性和低延迟,从而全面评估模型在实际网络环境中的适用性。
解决学术问题
NETPRESS解决了当前静态、小规模数据集在评估LLM代理时的局限性,如数据偏差、统计不显著和数据污染等问题。通过动态生成查询和集成网络模拟器,NETPRESS能够提供更真实、可扩展的评估环境,帮助研究人员更准确地衡量模型在复杂网络任务中的表现,从而缩小基准测试性能与实际部署准备之间的差距。
衍生相关工作
NETPRESS的衍生工作包括基于其框架的强化学习奖励模型训练和针对性对抗查询生成。这些工作进一步扩展了NETPRESS的应用范围,使其不仅用于评估,还能用于模型训练和弱点探测。例如,通过集成网络模拟器,NETPRESS支持在交互式环境中进行强化学习训练,生成多样化的对抗性测试用例以揭示模型在复杂网络任务中的局限性。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作