five

Junetheriver/OpsEval

收藏
Hugging Face2024-06-10 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/Junetheriver/OpsEval
下载链接
链接失效反馈
官方服务:
资源简介:
OpsEval数据集是一个用于评估IT运维领域人工智能(AIOps)应用的先驱性数据集,特别关注大型语言模型(LLMs)在该领域的应用。随着IT运维越来越依赖AI技术实现自动化和效率提升,了解LLMs在运维任务中的表现变得至关重要。OpsEval提供了一个全面的任务导向基准,专门设计用于评估LLMs在各种关键IT运维场景中的表现。该数据集包含7184道多选题和1736道问答形式的问题,涵盖英语和中文,并由领域专家进行审查以确保其可靠性。数据集部分开源,并提供了一个动态更新的在线排行榜,以跟踪新兴LLM的表现。

OpsEval数据集是一个用于评估IT运维领域人工智能(AIOps)应用的先驱性数据集,特别关注大型语言模型(LLMs)在该领域的应用。随着IT运维越来越依赖AI技术实现自动化和效率提升,了解LLMs在运维任务中的表现变得至关重要。OpsEval提供了一个全面的任务导向基准,专门设计用于评估LLMs在各种关键IT运维场景中的表现。该数据集包含7184道多选题和1736道问答形式的问题,涵盖英语和中文,并由领域专家进行审查以确保其可靠性。数据集部分开源,并提供了一个动态更新的在线排行榜,以跟踪新兴LLM的表现。
提供机构:
Junetheriver
原始信息汇总

OpsEval Dataset 概述

基本信息

  • 名称: OpsEval
  • 语言: 英语、中文
  • 标签: AIOps, LLM, Operations, Benchmark, Dataset
  • 许可证: MIT
  • 任务类别: 问答
  • 大小类别: 1K<n<10K

数据集亮点

  • 全面评估: 包含7184个多选题和1736个问答格式,支持中英文。
  • 任务导向设计: 针对不同关键场景和能力水平评估LLMs的熟练度。
  • 专家审核: 由数十位领域专家手动审核问题,确保评估的可靠性。
  • 开源与动态排行榜: 开放20%的测试问答,实时更新的在线排行榜跟踪新兴LLMs的性能。

数据集结构

  • /dev/: 用于少量样本的上下文学习示例。
  • /test/: OpsEval的测试集。

数据集信息

数据集名称 开源大小
Wired Network 1563
Oracle Database 395
5G Communication 349
Log Analysis 310

引用信息

@misc{liu2024opseval, title={OpsEval: A Comprehensive IT Operations Benchmark Suite for Large Language Models}, author={Yuhe Liu and Changhua Pei and Longlong Xu and Bohan Chen and Mingze Sun and Zhirui Zhang and Yongqian Sun and Shenglin Zhang and Kun Wang and Haiming Zhang and Jianhui Li and Gaogang Xie and Xidao Wen and Xiaohui Nie and Minghua Ma and Dan Pei}, year={2024}, eprint={2310.07637}, archivePrefix={arXiv}, primaryClass={cs.AI} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作