five

ORAN-Bench-13K|O-RAN数据集|大型语言模型评估数据集

收藏
arXiv2024-07-08 更新2024-07-12 收录
O-RAN
大型语言模型评估
下载链接:
https://github.com/prnshv/ORAN-Bench-13K
下载链接
链接失效反馈
资源简介:
ORAN-Bench-13K是由乔治梅森大学NextG无线实验室创建的,专门用于评估大型语言模型在开放无线接入网络(O-RAN)中的性能。该数据集包含13,952个精心策划的多项选择题,来源于116个O-RAN规范文档,涵盖了从基础概念到高级应用的广泛知识。数据集的创建过程采用了创新的三阶段LLM框架,确保了问题的高质量和多样性。该数据集主要用于评估和优化LLM在O-RAN领域的应用,特别是在网络分析、异常检测和代码生成等方面。
提供机构:
乔治梅森大学NextG无线实验室
创建时间:
2024-07-08
原始信息汇总

ORAN-Bench-13K: 评估大型语言模型在开放无线接入网络中的性能的开源基准

简介

ORAN-Bench-13K 是首个全面评估大型语言模型(LLMs)在开放无线接入网络(O-RAN)环境中性能的基准。该基准包含从116份O-RAN规范文档中精心挑选的13,952个多选题。它旨在评估LLMs在理解和生成特定于O-RAN任务的人类般文本方面的熟练程度。

动机

O-RAN技术的快速发展需要开发能够管理这些网络中复杂任务的复杂和智能系统。大型语言模型在各个领域显示出显著潜力,但尚未在O-RAN的特定环境中得到充分评估。ORAN-Bench-13K通过提供一个强大且全面的基准来填补这一空白,以评估LLMs在此关键领域的能力。

仓库结构

  • MCQA: 该文件夹包含三个JSON文件(Fin_E.json, Fin_M.json, Fin_D.json),对应不同难度的多选题。

使用方法

要使用该基准,您可以加载Benchmark文件夹中的JSON文件,并将其集成到您的LLM评估框架中。每个文件包含一系列问题、选项和正确答案索引。

引用

如果您在研究中使用ORAN-Bench-13K,请按以下方式引用我们的工作:

bibtex @misc{gajjar2024oranbench13kopensourcebenchmark, title={ORAN-Bench-13K: An Open Source Benchmark for Assessing LLMs in Open Radio Access Networks}, author={Pranshav Gajjar and Vijay K. Shah}, year={2024}, eprint={2407.06245}, archivePrefix={arXiv}, primaryClass={cs.NI}, url={https://arxiv.org/abs/2407.06245}, }

贡献

我们欢迎对基准的扩展和改进做出贡献。如果您有建议或想添加新问题,请与我们联系。

许可证

本项目基于MIT许可证。更多详情请参见LICENSE文件。

AI搜集汇总
数据集介绍
main_image_url
构建方式
ORAN-Bench-13K 数据集的构建过程采用了多阶段流程。首先,从 116 份 O-RAN 规范文档中提取文本,并分成小块。然后,使用 Gemini-1.5 模型生成多选题,并通过另一个 LLM 实例进行验证,以确保问题的语义意义和选项的合理性。最后,将有效的问题根据难度分为易、中、难三个类别,共计 13,952 个问题。这种构建方式确保了数据集的质量和多样性。
特点
ORAN-Bench-13K 数据集的特点在于其全面性和专业性。它涵盖了 O-RAN 规范知识的广泛范围,并且将问题分为三个不同的难度级别,以便于评估 LLM 在不同层次上的性能。此外,数据集还包含了不同 LLM 架构的评估结果,为研究人员提供了参考。ORAN-Bench-13K 的构建方式和使用 LLM 进行问题生成和验证,使得数据集具有高度的专业性和实用性。
使用方法
ORAN-Bench-13K 数据集的使用方法包括以下几个方面:1)作为 LLM 的评估工具,可以用于评估 LLM 在 O-RAN 规范知识方面的性能;2)作为 LLM 的训练数据集,可以用于训练 O-RAN 专业的 LLM 模型;3)作为 LLM 的辅助工具,可以用于生成 O-RAN 相关的问题和答案,以帮助工程师、研究人员和行业专业人士更好地理解和应用 O-RAN 规范。数据集的构建方式和使用 LLM 进行问题生成和验证,使得数据集具有高度的专业性和实用性,为 LLM 在 O-RAN 领域的应用提供了重要的支持和指导。
背景与挑战
背景概述
随着开放无线接入网络(O-RAN)的出现,电信领域正经历着一场变革。O-RAN通过其模块化和互操作性框架,使得运营商能够集成来自不同供应商的组件,从而促进了一个更加动态且具有成本效益的生态系统。大型语言模型(LLMs)的出现也为自然语言处理(NLP)和人工智能(AI)带来了革命性的变化,将文本生成、理解和交互提升到了前所未有的水平。在电信和无线行业,LLMs的应用日益增多,用于代码重构和设计、故障排除解决方案推荐、网络配置生成、负载均衡优化、预测性波束成形和流量负载预测等领域。然而,针对O-RAN的LLMs应用仍处于起步阶段,需要创建全面的评估策略来评估模型性能和指导架构设计。ORAN-Bench-13K数据集应运而生,它是第一个全面的基准,旨在评估LLMs在O-RAN领域的性能,由13,952个精心策划的多项选择题组成,涵盖了O-RAN相关知识的广泛范围。该数据集由乔治梅森大学NextG无线实验室的Pranshav Gajjar和Vijay K. Shah创建,通过利用一个创新的三个阶段LLM框架,这些问题被分为三个不同的难度级别。该数据集的创建旨在解决当前流行的LLM模型在O-RAN领域知识方面的不足,并通过ORANSight,一个基于检索增强生成(RAG)的管道,展示了在ORAN-Bench-13K上优于其他测试模型的性能。
当前挑战
ORAN-Bench-13K数据集和相关研究面临的主要挑战包括:1) 所解决的领域问题的挑战:尽管LLMs在多个领域都取得了显著的成果,但在O-RAN领域,现有的LLM模型尚未精通相关规格知识,这表明需要开发专门的模型来解决O-RAN领域的问题。2) 构建过程中所遇到的挑战:LLMs的训练和架构创建过程中存在过度的计算成本,这需要建立一个全面的评估策略来部署LLMs。此外,LLMs的“幻觉”问题使得评估LLM在特定领域的性能变得困难且不准确。尽管ORANSight管道在ORAN-Bench-13K上取得了显著的性能提升,但评估模型性能仍然需要大量的人力和资源,而且容易受到人为错误和偏见的干扰。因此,开发专门针对O-RAN领域的LLMs模型,以及创建能够有效评估这些模型性能的基准和评估策略,是当前面临的主要挑战。
常用场景
经典使用场景
ORAN-Bench-13K数据集是一个用于评估大型语言模型(LLMs)在开放无线接入网络(O-RAN)中的性能的综合基准。该数据集包含了13,952个精心策划的多选题,这些题目来自116份O-RAN规范文档,涵盖了从基本概念到深入理解的广泛知识。这个数据集的经典使用场景是在O-RAN领域内评估LLMs的性能,以便更好地理解和利用这些模型在O-RAN任务中的潜力,如网络分析、异常检测和代码生成。
衍生相关工作
ORAN-Bench-13K数据集的提出,衍生了ORANSight这样一个基于检索增强生成(RAG)的LLM流水线。ORANSight在ORAN-Bench-13K数据集上表现出优于其他测试模型的性能,为O-RAN领域的LLMs应用提供了新的思路。此外,ORAN-Bench-13K数据集还促进了O-RAN领域的LLMs模型研究和开发,为未来的研究提供了宝贵的数据资源。
数据集最近研究
最新研究方向
ORAN-Bench-13K数据集的提出,为评估大型语言模型(LLMs)在开放无线接入网络(O-RAN)中的性能提供了一个全面的基准。该数据集包含13,952个精心策划的多选题,涵盖了O-RAN相关知识的广泛领域。研究结果表明,当前流行的LLMs在O-RAN方面的能力有限,这突出了开发专用模型的需求。此外,研究者提出了ORANSight,一个基于检索增强生成(RAG)的管道,它在ORAN-Bench-13K上的性能优于其他测试的闭源模型。这些发现强调了RAG方法在增强LLM在O-RAN领域的性能方面的有效性,并为未来开发O-RAN专业LLMs提供了方向。
相关研究论文
  • 1
    ORAN-Bench-13K: An Open Source Benchmark for Assessing LLMs in Open Radio Access Networks乔治梅森大学NextG无线实验室 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

PDT Dataset

PDT数据集是由山东计算机科学中心(国家超级计算济南中心)和齐鲁工业大学(山东省科学院)联合开发的无人机目标检测数据集,专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本,共计5775张图像,涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注,旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术,旨在提高无人机在植物保护中的目标识别精度,解决传统检测模型在实际应用中的不足。

arXiv 收录

VisDrone2019

VisDrone2019数据集由AISKYEYE团队在天津大学机器学习和数据挖掘实验室收集,包含288个视频片段共261,908帧和10,209张静态图像。数据集覆盖了中国14个不同城市的城市和乡村环境,包括行人、车辆、自行车等多种目标,以及稀疏和拥挤场景。数据集使用不同型号的无人机在各种天气和光照条件下收集,手动标注了超过260万个目标边界框,并提供了场景可见性、对象类别和遮挡等重要属性。

github 收录

CMNEE(Chinese Military News Event Extraction dataset)

CMNEE(Chinese Military News Event Extraction dataset)是国防科技大学、东南大学和清华大学联合构建的一个大规模的、基于文档标注的开源中文军事新闻事件抽取数据集。该数据集包含17,000份文档和29,223个事件,所有事件均基于预定义的军事领域模式人工标注,包括8种事件类型和11种论元角色。数据集构建遵循两阶段多轮次标注策略,首先通过权威网站获取军事新闻文本并预处理,然后依据触发词字典进行预标注,经领域专家审核后形成事件模式。随后,通过人工分批、迭代标注并持续修正,直至满足既定质量标准。CMNEE作为首个专注于军事领域文档级事件抽取的数据集,对推动相关研究具有显著意义。

github 收录

IMF International Financial Statistics (IFS)

国际货币基金组织(IMF)的国际金融统计(IFS)数据集提供了全球各国的金融和经济数据,包括货币供应、利率、国际收支、国际储备等。该数据集是研究国际金融和经济趋势的重要资源。

www.imf.org 收录

AISHELL/AISHELL-1

Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。

hugging_face 收录