moe-sovereign-benchmarks

Hugging Face2026-04-11 更新2026-04-12 收录

下载链接：

https://huggingface.co/datasets/h3rb3rn/moe-sovereign-benchmarks

下载链接

链接失效反馈

官方服务：

资源简介：

MoE Sovereign基准测试结果数据集包含来自MoE Sovereign项目的基准测试结果，该项目是一个开源的Mixture-of-Experts编排器，用于自托管的LLM推理。数据集涵盖了内部认知基准（MoE-Eval v1）、外部基准（GAIA Level 1和LongMemEval）以及不同运行期间的性能指标。数据集还包括硬件配置、模板配置和验证的企业功能等详细信息。数据集支持多语言（德语和英语），适用于问答和文本生成任务，并包含多种相关标签。数据文件以JSON格式组织，分为不同的配置。数据集采用CC BY-SA 4.0许可协议。

创建时间：

2026-04-11

搜集汇总

数据集介绍

构建方式

在构建MoE Sovereign基准数据集的过程中，研究团队采用了一种系统化的评估框架，旨在为受监管环境下的混合专家人工智能基础设施提供全面的性能基准。该数据集通过一个异构的五节点GPU集群进行生成，其中集成了基于LangGraph的确定性模板路由编排管道。评估过程涵盖了69个本地大型语言模型，这些模型在多种角色（如规划者、评判者和专家）中接受测试，以解析结构化任务分解、评估专家输出质量并遵循专家系统提示。此外，数据集还整合了来自GAIA一级基准、长期记忆评估、复合分析以及对抗性安全测试的结果，确保了评估的多样性和深度。

特点

该数据集的特点在于其多维度的评估覆盖和针对混合专家系统的专门设计。它不仅提供了对大量本地模型在特定角色适用性上的系统性分析，还包含了从通用人工智能助手基准到长期记忆与时间推理的广泛测试。数据集通过GraphRAG知识图谱的增强，展示了在知识更新和时序推理任务上的显著性能提升。同时，对抗性安全测试部分验证了系统在面对多种注入攻击时的鲁棒性，而复合分析则揭示了查询延迟随知识复用而大幅降低的现象。这些特点共同构成了一个面向受监管行业、强调确定性、安全性与效率的全面基准。

使用方法

研究人员和工程师可以利用此数据集来评估和比较不同混合专家系统架构及其组件的性能。具体而言，用户可以通过分析`llm_role_suitability_merged.json`等文件，了解各模型在规划者、评判者等关键角色上的适用性，从而为系统组件选型提供依据。`gaia_results.json`和`longmemeval_results.json`等文件则可用于衡量系统在通用任务、知识保留及时序推理方面的能力，并与前沿单体模型进行对比。此外，数据集中的安全测试和缓存性能指标为构建安全、高效的系统提供了关键参考。用户应结合附带的63页白皮书，深入理解其方法论，以确保评估结果的准确性和可复现性。

背景与挑战

背景概述

MoE Sovereign Benchmark Dataset 诞生于2026年，由Philipp Horn及其研究团队主导开发，旨在为受监管环境下的主权人工智能基础设施提供系统性的评估基准。该数据集聚焦于混合专家模型（Mixture-of-Experts, MoE）在复杂任务编排中的核心研究问题，通过系统评估69个本地大语言模型在规划者、评判者与专家等角色中的适用性，探索确定性复合AI系统的性能边界。其创新性地结合了LangGraph流程、Neo4j图检索增强生成（GraphRAG）与多工具集成，为金融、医疗、法律等高度规范领域的AI系统部署提供了可验证的评估框架，推动了主权AI在安全性、效率与合规性方向的研究进展。

当前挑战

该数据集致力于解决混合专家系统在受监管环境中实际部署的综合性挑战，包括如何精准评估不同模型在任务分解、输出评判与专家遵循等细分角色中的能力差异，以及如何衡量图增强检索与缓存机制对长期记忆与时序推理的效能提升。在构建过程中，研究团队面临异构GPU集群上大规模本地模型协同测试的工程复杂性，需确保评估流程在量化精度与延迟之间的平衡；同时，对抗性安全测试需覆盖多种代码注入与混淆攻击向量，以验证AST白名单防火墙的鲁棒性，这要求设计兼具广度与深度的恶意输入用例。

常用场景

经典使用场景

在人工智能模型评估领域，MoE Sovereign Benchmark Dataset 为混合专家系统（Mixture-of-Experts, MoE）的架构设计与性能验证提供了经典基准。该数据集通过系统性的角色适配性研究，评估了69个本地大型语言模型在规划者、评判者和专家等核心角色中的表现，为研究者筛选适合MoE编排的模型提供了实证依据。其基准测试覆盖了任务分解、输出评估与知识整合等多个关键环节，成为优化专家系统组件选择与配置的重要参考工具。

实际应用

在实际应用层面，MoE Sovereign Benchmark Dataset 主要服务于金融、医疗、法律等高度监管行业的AI基础设施部署。其评估框架帮助机构在本地化环境中构建主权AI系统，确保数据隐私与合规性。通过集成GraphRAG知识图谱与多工具编排，该系统能够处理复杂的专业查询，如代码审查、法律文件分析或医疗诊断支持，在保证安全性的同时提升任务执行的准确性与响应速度，为行业专用智能助手的落地提供了可量化的性能基准。

衍生相关工作

围绕该数据集衍生的经典工作主要包括基于LangGraph的确定性编排流水线优化、面向Neo4j GraphRAG的知识增强策略以及轻量级模型在MoE角色中的适配性研究。例如，研究通过计划缓存与模型预热机制，实现了查询延迟的指数级降低；同时，对抗性测试框架促进了AST白名单等安全执行层的发展。这些工作共同推动了混合专家系统在资源受限环境下的高效部署，并为开源社区提供了可复现的基准测试与架构设计范例。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集