Junetheriver/OpsEval

Name: Junetheriver/OpsEval
Creator: Junetheriver
Published: 2024-06-10 07:26:34
License: 暂无描述

Hugging Face2024-06-10 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/Junetheriver/OpsEval

下载链接

链接失效反馈

官方服务：

资源简介：

OpsEval数据集是一个用于评估IT运维领域人工智能（AIOps）应用的先驱性数据集，特别关注大型语言模型（LLMs）在该领域的应用。随着IT运维越来越依赖AI技术实现自动化和效率提升，了解LLMs在运维任务中的表现变得至关重要。OpsEval提供了一个全面的任务导向基准，专门设计用于评估LLMs在各种关键IT运维场景中的表现。该数据集包含7184道多选题和1736道问答形式的问题，涵盖英语和中文，并由领域专家进行审查以确保其可靠性。数据集部分开源，并提供了一个动态更新的在线排行榜，以跟踪新兴LLM的表现。

提供机构：

Junetheriver

原始信息汇总

OpsEval Dataset 概述

基本信息

名称: OpsEval
语言: 英语、中文
标签: AIOps, LLM, Operations, Benchmark, Dataset
许可证: MIT
任务类别: 问答
大小类别: 1K<n<10K

数据集亮点

全面评估: 包含7184个多选题和1736个问答格式，支持中英文。
任务导向设计: 针对不同关键场景和能力水平评估LLMs的熟练度。
专家审核: 由数十位领域专家手动审核问题，确保评估的可靠性。
开源与动态排行榜: 开放20%的测试问答，实时更新的在线排行榜跟踪新兴LLMs的性能。

数据集结构

/dev/: 用于少量样本的上下文学习示例。
/test/: OpsEval的测试集。

数据集信息

数据集名称	开源大小
Wired Network	1563
Oracle Database	395
5G Communication	349
Log Analysis	310

引用信息

@misc{liu2024opseval, title={OpsEval: A Comprehensive IT Operations Benchmark Suite for Large Language Models}, author={Yuhe Liu and Changhua Pei and Longlong Xu and Bohan Chen and Mingze Sun and Zhirui Zhang and Yongqian Sun and Shenglin Zhang and Kun Wang and Haiming Zhang and Jianhui Li and Gaogang Xie and Xidao Wen and Xiaohui Nie and Minghua Ma and Dan Pei}, year={2024}, eprint={2310.07637}, archivePrefix={arXiv}, primaryClass={cs.AI} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集