6G-Bench

github2026-02-13 更新2026-02-14 收录

下载链接：

https://github.com/maferrag/6G-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

6G-Bench是一个开放的标准化基准，用于评估基础模型（LLMs及其他）在AI原生6G网络中的语义通信和网络级推理能力。它包含113,475个源场景、10,000个非常难的多选题和3,722个经过专家验证的多选题，用于评估模型在网络意图和政策推理、网络切片和资源管理、信任、安全和SLA意识、AI原生网络和代理控制以及分布式智能和新兴6G用例等方面的能力。

6G-Bench is an open standardized benchmark for evaluating the semantic communication and network-level reasoning capabilities of foundation models (including LLMs and other types) in AI-native 6G networks. It comprises 113,475 source scenarios, 10,000 extremely challenging multiple-choice questions, and 3,722 expert-validated multiple-choice questions, designed to assess model performance across domains including network intent and policy reasoning, network slicing and resource management, trust, security and SLA awareness, AI-native network and agent control, as well as distributed intelligence and emerging 6G use cases.

创建时间：

2026-02-08

原始信息汇总

6G-Bench 数据集概述

数据集基本信息

数据集名称：6G-Bench
核心定位：用于评估AI原生6G网络中基础模型语义通信和网络级推理能力的开放标准化基准。
官方论文：https://arxiv.org/pdf/2602.08675
官方发布地址：https://dx.doi.org/10.21227/c8pt-hc87
联系邮箱：mohamed.ferrag@uaeu.ac.ae / mohamed.amine.ferrag@gmail.com

核心特点与贡献

标准化对齐的任务分类法：包含30个决策任务（T1–T30），组织成五个源自6G和AI智能体标准化工作的能力类别。
不确定性下的网络级语义推理：任务要求基于意图、策略、信任和未来后果进行多步推理，并使用最坏情况后悔最小化原则。
大规模高难度基准：
- 源场景数量：113,475个
- 生成的极难多选题数量：10,000个
- 发布用于评估的专家验证多选题数量：3,722个
严格的验证流程：结合自动化结构检查和人类专家评审，确保语义正确性和唯一性。
全面的模型评估：评估了22个最先进的基础模型，涵盖密集和MoE架构、开源权重和专有系统、短上下文和长上下文设计。

能力类别

意图与策略推理：意图可行性评估、冲突解决、意图漂移检测、不确定性下的保守决策。
网络切片与资源管理：切片选择与切换、计算放置、优雅降级、SLA违规预测、能源感知决策。
信任、安全与SLA意识：信任感知卸载、智能体身份与上线、第三方暴露控制、自动化安全响应。
AI原生网络与智能体控制：智能体互操作性、智能体间通信、生命周期管理、网络知识RAG决策。
分布式智能与新兴6G用例：联邦学习编排、ISAC决策、数字孪生、灾难响应、沉浸式服务。

问题形式与评估

问题形式：每个基准实例代表一个不确定性下的语义决策。所有问题均为多项选择题（A–D），但需要多步定量推理、不确定性感知预测、策略和信任约束评估以及未来后果比较。
评估协议：
- 确定性 pass@1 准确率
- 每任务准确率（T1–T30）
- 组级准确率（五个能力类别）
- 针对推理密集型任务的选择性 pass@k 准确率
模型响应格式：必须返回结构化JSON响应，例如 {"answer": "..."}。

基准设计流程

标准化收集与任务提取
语义状态与动作抽象
网络级语义推理与任务条件化
数据集验证（自动化 + 人在回路）
评估与指标

任务覆盖与示例

任务分布涵盖上述五个能力类别及30个具体任务。
问题示例展示了任务T1至T6的格式，包括问题描述、选项、正确答案、推理原因、理性标签和难度等级（例如“very_hard”）。

搜集汇总

数据集介绍

构建方式

在第六代移动通信系统（6G）与人工智能深度融合的背景下，6G-Bench数据集通过系统化的流程构建而成。其构建始于对3GPP、IETF等国际标准化组织现有规范的收集与任务提取，确保了基准与产业前沿的紧密对齐。随后，研究团队将复杂的网络状态、策略约束与任务意图抽象为可计算的语义状态与动作空间。在此基础上，通过引入最坏情况后悔最小化的决策框架，生成了要求模型进行多步定量推理与不确定性感知的复杂情景。最终，数据集经过自动化结构检查与领域专家人工审核的双重验证流程，保证了超过11万个源场景中生成的数万个多选题的语义正确性与唯一性。

特点

该数据集的核心特点在于其专注于评估基础模型在AI原生6G网络中的语义通信与网络级推理能力。与侧重于孤立任务或事实性知识的传统电信基准不同，6G-Bench强调在意图、策略、信任等语义抽象层面进行决策。其任务体系直接源自6G标准化活动，涵盖了意图与策略推理、网络切片与资源管理、信任安全与SLA感知等五大能力范畴。数据集规模庞大且难度极高，包含了大量经过专家验证的“极难”级别多选题，要求模型在不确定性和多约束条件下进行未来后果推演与权衡，从而深刻检验其作为网络语义推理层的潜力。

使用方法

使用6G-Bench进行评估需遵循其提供的统一且可复现的评估协议。评估者需为待测模型准备符合特定任务条件（task-conditioned）的提示词，这些提示词包含了截断的多轮轨迹信息，如任务意图、网络状态指标、策略约束等。模型需要解析这些复杂情景，并输出结构化的JSON响应，其中包含其对最佳行动方案的选择。评估主要采用确定性的pass@1准确率作为核心指标，同时支持按具体任务（T1-T30）和五大能力类别进行分组精度分析。对于推理密集型的任务，还可选择性计算pass@k准确率，以更全面地衡量模型的决策与推理能力。

背景与挑战

背景概述

随着第六代移动通信系统（6G）向人工智能原生网络演进，语义通信与网络级推理成为核心研究前沿。在此背景下，6G-Bench数据集应运而生，由Mohamed Ferrag等研究人员于2024年创建，旨在为评估基础模型在AI原生6G网络中的语义决策能力提供标准化基准。该数据集紧密依托3GPP、IETF、ETSI等国际标准化组织的活动，聚焦于网络意图与策略推理、切片资源管理、信任安全感知等五大能力范畴，通过113,475个源场景与专家验证的多选题，系统考察模型在不确定性下的最坏情况后悔最小化决策。其推出为6G智能网络架构的研究提供了关键评估工具，推动了语义通信从理论走向实际应用的进程。

当前挑战

6G-Bench致力于解决AI原生6G网络中语义通信与网络级推理的评估挑战，其核心问题在于如何让基础模型在复杂、动态的网络环境下进行多步语义决策。具体挑战包括：模型需在意图可行性评估、切片切换、冲突消解等任务中，融合量化网络状态、策略约束与未来不确定性，实现风险感知的优化选择；同时，构建过程面临大规模场景生成、语义正确性保障以及专家验证的复杂性，例如从标准化文档提取任务、抽象语义状态与动作，并确保10,000道高难度多选题的独特性和逻辑一致性，这要求自动化检查与人工审核相结合的精密度量流程。

常用场景

经典使用场景

在人工智能原生6G网络的研究领域，6G-Bench数据集被广泛用于评估基础模型在语义通信和网络级推理方面的核心能力。该数据集通过模拟复杂的网络决策场景，如意图可行性评估、切片切换决策和多智能体协调，为研究者提供了一个标准化的测试平台。其经典应用场景集中在让模型在不确定性环境下进行多步推理，以最小化未来最坏情况下的遗憾，从而验证模型在动态网络环境中的语义理解和决策有效性。

实际应用

在实际应用层面，6G-Bench数据集为6G网络的智能化部署提供了重要的参考依据。它能够指导网络切片管理、服务等级协议（SLA）保障、安全信任评估以及灾难响应等现实场景的算法开发与系统优化。通过模拟无人机任务、沉浸式服务和数字孪生等新兴用例，该数据集助力工程师设计出更可靠、自适应且符合标准化要求的AI原生网络解决方案，加速6G技术从实验室走向产业化。

衍生相关工作

围绕6G-Bench数据集，学术界衍生出一系列经典研究工作，主要集中在语义通信模型优化、网络推理引擎设计以及多智能体协同学习等方面。例如，基于其任务分类，研究者开发了针对意图冲突检测和切片公平性权衡的专用算法；同时，该数据集也促进了长上下文模型、混合专家架构在6G场景下的性能评估与改进，为后续的标准化贡献和开源工具开发奠定了重要基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集