OpsEval

Name: OpsEval
Creator: 中国科学院
Published: 2024-02-16 16:17:06
License: 暂无描述

arXiv2024-02-16 更新2024-06-21 收录

下载链接：

https://github.com/NetManAIOps/OpsEval-Datasets

下载链接

链接失效反馈

官方服务：

资源简介：

OpsEval是一个专为大型语言模型设计的全面IT运营基准套件。该数据集由中国科学院和清华大学等机构合作创建，包含7184个多选题和1736个问答格式的问题，涵盖英语和中文。OpsEval旨在评估LLMs在各种关键场景中的能力水平，通过专家评审确保评估的可信度。数据集的应用领域包括根因分析、运维脚本生成和警报信息汇总，旨在优化专为IT运营定制的LLMs。

OpsEval is a comprehensive IT operations benchmark suite specifically designed for large language models (LLMs). Developed through collaboration between institutions including the Chinese Academy of Sciences and Tsinghua University, this dataset comprises 7,184 multiple-choice questions and 1,736 question-answering formatted questions, covering both English and Chinese languages. OpsEval aims to evaluate the competency levels of LLMs across various critical IT operational scenarios, with expert reviews conducted to ensure the credibility of the assessment framework. Its application areas include root cause analysis, operation and maintenance script generation, and alert information summarization, with the ultimate goal of optimizing LLMs tailored for IT operational scenarios.

提供机构：

中国科学院

创建时间：

2023-10-12

搜集汇总

数据集介绍

构建方式

在信息技术运维领域，数据的高度敏感性与专有性构成了构建评估基准的核心挑战。OpsEval通过建立涵盖互联网、电信、金融等多元行业的AIOps社区，汇聚了十家企业提供的生产环境工单、内部培训资料等私有数据，并结合公开的认证考试指南与运维教材，形成了初始问题池。为确保数据的质量与代表性，研究团队实施了去重处理、依赖性过滤，并借助GPT-4进行主题建模与自动化预分类，最终由数十位领域专家进行多轮人工审核与任务归类，将问题划分为网络配置、故障诊断等八个具体任务以及知识回忆、分析思维与实践应用三个能力层级，从而构建出包含7184道选择题与1736道问答题的权威双语基准。

特点

OpsEval基准套件在信息技术运维评估领域展现出鲜明的特色。其核心在于首次系统性地将运维任务解构为八个具体领域与三个渐进式能力层级，实现了对大型语言模型在专业知识深度与复杂场景适应性的多维度量。数据集覆盖有线网络、5G通信、数据库运维等多个关键子领域，并同时提供英文与中文双语问题，确保了评估的广泛性与文化适应性。尤为突出的是，该基准引入了基于GPT-4的自动化评分机制与专家人工评估相结合的三维度量标准，涵盖流畅性、准确性与证据支持，有效克服了传统BLEU等指标在专业语义评估上的局限性，为领域特定的模型性能提供了更为可靠与细致的评判依据。

使用方法

为充分发挥OpsEval的评估效能，研究团队设计了一套严谨且灵活的使用框架。评估过程主要针对选择题与问答题两种形式展开：对于选择题，采用准确率作为核心指标，并通过正则表达式从模型输出中提取选项以确保判定的客观性；对于问答题，则综合运用ROUGE、BLEU等重叠度指标与创新的GPT-4评分及专家评估。研究系统测试了零样本、少样本学习设置，并融合了思维链、自我一致性等提示工程技术，以全面探究不同策略对模型性能的影响。为保障评估的公平性与持续性，基准以开源20%数据供初步研究，同时保留80%非公开数据用于防泄漏测试，并配套提供了可实时更新的在线排行榜，支持研究者通过提交Docker镜像的方式对完整数据集进行自动化评估与性能追踪。

背景与挑战

背景概述

随着人工智能技术的迅猛发展，大型语言模型在自然语言处理任务中展现出卓越能力，其在IT运维领域的应用潜力日益凸显。OpsEval数据集由清华大学、中国科学院等机构的研究团队于2023年联合创建，旨在构建一个全面评估大型语言模型在IT运维任务中性能的基准测试套件。该数据集聚焦于人工智能运维的核心研究问题，通过涵盖网络配置、故障诊断、性能优化等多个子领域，系统性地检验模型在知识回忆、分析思维与实践应用三个能力层级上的表现。OpsEval的推出填补了该领域专项评估工具的空白，为优化面向运维的大型语言模型提供了重要依据，对推动AIOps技术的实际落地具有显著影响力。

当前挑战

OpsEval数据集致力于解决IT运维领域大型语言模型评估的专项挑战，其构建过程面临多重困难。在领域问题层面，运维任务涉及网络管理、日志分析、自动化脚本生成等高度专业化的场景，要求模型不仅掌握广泛的技术知识，还需具备深度的逻辑推理与实际问题解决能力。数据集的构建挑战尤为突出：首先，运维数据通常具有敏感性与专有性，公开资源极其匮乏，需联合多家企业通过社区协作方式汇集材料；其次，运维子领域众多且任务类型多样，不同场景对模型准确率的要求差异显著，为自动化标注带来严峻考验；此外，现有评估指标如BLEU难以准确衡量运维问答的语义正确性，需设计融合流畅性、准确性与证据支持的多维评估体系。

常用场景

经典使用场景

在人工智能运维领域，OpsEval作为首个面向大语言模型的综合性基准测试套件，其经典使用场景在于系统评估各类大模型在IT运维任务中的专业能力。该数据集通过涵盖有线网络、5G通信、数据库运维、日志分析等八大核心场景，构建了包含7184道选择题与1736道问答题的评测体系，为研究者提供了多维度、多层次的模型性能分析框架。在实际应用中，OpsEval常被用于对比不同规模参数模型在故障诊断、脚本生成、性能优化等专业任务上的表现差异，同时通过零样本、少样本及思维链等提示工程技术，深入探索模型在运维领域的知识迁移与推理能力。

实际应用

在产业实践中，OpsEval已成为企业评估和选择运维大模型的关键工具。云计算服务商利用该基准测试不同模型在混合云环境下的配置优化能力，金融机构借助其评估模型在证券交易系统故障诊断中的可靠性，通信运营商则通过5G通信专项测试验证模型在网络运维场景的适用性。该数据集构建的实时更新排行榜，使企业能够持续追踪最新大模型在运维任务上的性能演进，为实际生产环境中的模型选型与部署提供了数据支撑，显著降低了企业引入AI运维技术的试错成本与风险。

衍生相关工作

OpsEval的发布催生了运维大模型研究领域的系列创新工作。基于其评估框架，研究者开发了面向DevOps场景的专用微调模型，如DevOps-Model-14B-Chat在自动化脚本生成任务上展现出接近70B参数模型的性能。在评测方法层面，该数据集启发了基于GPT-4的自动化评分机制研究，其与专家评估92%的相关性为大规模定性评估提供了新范式。同时，围绕OpsEval展开的模型量化研究揭示了4比特量化技术在保持运维任务性能方面的可行性，为边缘计算场景下的轻量化运维模型部署奠定了理论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集