open-llm-leaderboard/details_NotAiLOL__Boundary-Meta-Llama-3-2x8B-MoE

Name: open-llm-leaderboard/details_NotAiLOL__Boundary-Meta-Llama-3-2x8B-MoE
Creator: open-llm-leaderboard
Published: 2024-04-19 18:43:16
License: 暂无描述

Hugging Face2024-04-19 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/open-llm-leaderboard/details_NotAiLOL__Boundary-Meta-Llama-3-2x8B-MoE

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是在评估模型NotAiLOL/Boundary-Meta-Llama-3-2x8B-MoE时自动创建的，主要用于在Open LLM Leaderboard上展示模型的性能。数据集包含63个配置，每个配置对应一个评估任务。数据集由1次运行生成，每次运行的结果作为特定配置中的一个分割，分割名称使用运行的时间戳。train分割始终指向最新的结果。此外，还有一个名为results的配置，存储了所有运行的聚合结果，用于在Open LLM Leaderboard上计算和展示聚合指标。

提供机构：

open-llm-leaderboard

原始信息汇总

数据集概述

该数据集是在评估模型 NotAiLOL/Boundary-Meta-Llama-3-2x8B-MoE 在 Open LLM Leaderboard 上的自动创建的。

数据集组成

数据集包含 63 个配置，每个配置对应一个评估任务。
数据集从 1 次运行中创建，每次运行可以在每个配置中找到特定的分割，分割名称使用运行的时间戳。
"train" 分割始终指向最新的结果。
一个额外的配置 "results" 存储所有运行的聚合结果，用于计算和显示 Open LLM Leaderboard 上的聚合指标。

数据加载示例

python from datasets import load_dataset data = load_dataset("open-llm-leaderboard/details_NotAiLOL__Boundary-Meta-Llama-3-2x8B-MoE", "harness_winogrande_5", split="train")

最新结果

以下是 2024-04-19T18:37:34.435952 运行的最新结果：

python { "all": { "acc": 0.6692655318085919, "acc_stderr": 0.03176379807664541, "acc_norm": 0.6715959862437331, "acc_norm_stderr": 0.03239943341231643, "mc1": 0.3623011015911873, "mc1_stderr": 0.016826646897262258, "mc2": 0.5164972283615512, "mc2_stderr": 0.01519689881872357 }, "harness|arc:challenge|25": { "acc": 0.5716723549488054, "acc_stderr": 0.01446049636759902, "acc_norm": 0.6075085324232082, "acc_norm_stderr": 0.014269634635670722 }, "harness|hellaswag|10": { "acc": 0.5904202350129456, "acc_stderr": 0.0049075121031283446, "acc_norm": 0.7855008962358097, "acc_norm_stderr": 0.004096355125117512 }, "harness|hendrycksTest-abstract_algebra|5": { "acc": 0.32, "acc_stderr": 0.046882617226215034, "acc_norm": 0.32, "acc_norm_stderr": 0.046882617226215034 }, "harness|hendrycksTest-anatomy|5": { "acc": 0.6518518518518519, "acc_stderr": 0.041153246103369526, "acc_norm": 0.6518518518518519, "acc_norm_stderr": 0.041153246103369526 }, "harness|hendrycksTest-astronomy|5": { "acc": 0.7039473684210527, "acc_stderr": 0.03715062154998905, "acc_norm": 0.7039473684210527, "acc_norm_stderr": 0.03715062154998905 }, "harness|hendrycksTest-business_ethics|5": { "acc": 0.69, "acc_stderr": 0.04648231987117316, "acc_norm": 0.69, "acc_norm_stderr": 0.04648231987117316 }, "harness|hendrycksTest-clinical_knowledge|5": { "acc": 0.7471698113207547, "acc_stderr": 0.02674989977124121, "acc_norm": 0.7471698113207547, "acc_norm_stderr": 0.02674989977124121 }, "harness|hendrycksTest-college_biology|5": { "acc": 0.7986111111111112, "acc_stderr": 0.03353647469713839, "acc_norm": 0.7986111111111112, "acc_norm_stderr": 0.03353647469713839 }, "harness|hendrycksTest-college_chemistry|5": { "acc": 0.47, "acc_stderr": 0.050161355804659205, "acc_norm": 0.47, "acc_norm_stderr": 0.050161355804659205 }, "harness|hendrycksTest-college_computer_science|5": { "acc": 0.59, "acc_stderr": 0.04943110704237102, "acc_norm": 0.59, "acc_norm_stderr": 0.04943110704237102 }, "harness|hendrycksTest-college_mathematics|5": { "acc": 0.39, "acc_stderr": 0.04902071300001975, "acc_norm": 0.39, "acc_norm_stderr": 0.04902071300001975 }, "harness|hendrycksTest-college_medicine|5": { "acc": 0.6358381502890174, "acc_stderr": 0.03669072477416907, "acc_norm": 0.6358381502890174, "acc_norm_stderr": 0.03669072477416907 }, "harness|hendrycksTest-college_physics|5": { "acc": 0.5, "acc_stderr": 0.04975185951049946, "acc_norm": 0.5, "acc_norm_stderr": 0.04975185951049946 }, "harness|hendrycksTest-computer_security|5": { "acc": 0.77, "acc_stderr": 0.04229525846816506, "acc_norm": 0.77, "acc_norm_stderr": 0.04229525846816506 }, "harness|hendrycksTest-conceptual_physics|5": { "acc": 0.6042553191489362, "acc_stderr": 0.03196758697835363, "acc_norm": 0.6042553191489362, "acc_norm_stderr": 0.03196758697835363 }, "harness|hendrycksTest-econometrics|5": { "acc": 0.6052631578947368, "acc_stderr": 0.04598188057816542, "acc_norm": 0.6052631578947368, "acc_norm_stderr": 0.04598188057816542 }, "harness|hendrycksTest-electrical_engineering|5": { "acc": 0.6275862068965518, "acc_stderr": 0.04028731532947559, "acc_norm": 0.6275862068965518, "acc_norm_stderr": 0.04028731532947559 }, "harness|hendrycksTest-elementary_mathematics|5": { "acc": 0.4444444444444444, "acc_stderr": 0.025591857761382182, "acc_norm": 0.4444444444444444, "acc_norm_stderr": 0.025591857761382182 }, "harness|hendrycksTest-formal_logic|5": { "acc": 0.48412698412698413, "acc_stderr": 0.04469881854072606, "acc_norm": 0.48412698412698413, "acc_norm_stderr": 0.04469881854072606 }, "harness|hendrycksTest-global_facts|5": { "acc": 0.4, "acc_stderr": 0.04923659639173309, "acc_norm": 0.4, "acc_norm_stderr": 0.04923659639173309 }, "harness|hendrycksTest-high_school_biology|5": { "acc": 0.7838709677419354, "acc_stderr": 0.02341529343356853, "acc_norm": 0.7838709677419354, "acc_norm_stderr": 0.02341529343356853 }, "harness|hendrycksTest-high_school_chemistry|5": { "acc": 0.5073891625615764, "acc_stderr": 0.035176035403610105, "acc_norm": 0.5073891625615764, "acc_norm_stderr": 0.035176035403610105 }, "harness|hendrycksTest-high_school_computer_science|5": { "acc": 0.75, "acc_stderr": 0.04351941398892446, "acc_norm": 0.75, "acc_norm_stderr": 0.04351941398892446 }, "harness|hendrycksTest-high_school_european_history|5": { "acc": 0.7454545454545455, "acc_stderr": 0.03401506715249039, "acc_norm": 0.7454545454545455, "acc_norm_stderr": 0.03401506715249039 }, "harness|hendrycksTest-high_school_geography|5": { "acc": 0.8434343434343434, "acc_stderr": 0.025890520358141454, "acc_norm": 0.8434343434343434, "acc_norm_stderr": 0.025890520358141454 }, "harness|hendrycksTest-high_school_government_and_politics|5": { "acc": 0.9119170984455959, "acc_stderr": 0.02045374660160103, "acc_norm": 0.9119170984455959, "acc_norm_stderr": 0.02045374660160103 }, "harness|hendrycksTest-high_school_macroeconomics|5": { "acc": 0.658974358974359, "acc_stderr": 0.02403548967633507, "acc_norm": 0.658974358974359, "acc_norm_stderr": 0.02403548967633507 }, "harness|hendrycksTest-high_school_mathematics|5": { "acc": 0.4, "acc_stderr": 0.029869605095316904, "acc_norm": 0.4, "acc_norm_stderr": 0.029869605095316904 }, "harness|hendrycksTest-high_school_microeconomics|5": {

搜集汇总

数据集介绍

构建方式

该数据集是在Open LLM Leaderboard评估框架下，针对NotAiLOL/Boundary-Meta-Llama-3-2x8B-MoE模型自动生成的评估记录。数据集构建过程基于一次完整的运行，涵盖了63个不同的评估任务配置，每个配置对应一个特定的评测基准，如ARC挑战、HellaSwag、GSM8K、Winogrande以及涵盖多学科知识的MMLU（HendrycksTest）系列任务。每个配置中均包含以运行时间戳命名的数据分割，而“train”分割则始终指向最新一次的评估结果。此外，还设有专门的“results”配置，用于存储所有任务的聚合指标，便于在排行榜上计算和展示综合性能。

特点

数据集的核心特点在于其结构化与动态更新机制。它由63个任务配置组成，每个配置独立存储对应任务的细粒度评估细节，包括准确率及其标准误差等关键指标。时间戳分割的设计允许用户追溯历史评估记录，而“latest”分割则自动关联最新结果，确保了数据的时效性与可回溯性。这种架构不仅支持对单一模型在多个维度上的性能进行深入剖析，还为后续模型的对比分析提供了标准化的数据基础，展现了在大型语言模型评估领域的高度系统化与可扩展性。

使用方法

用户可通过Hugging Face的datasets库便捷地加载该数据集。具体而言，调用load_dataset函数并指定数据集名称，同时传入目标任务的配置名称（如"harness_winogrande_5"）及所需的分割（如"train"），即可获取特定任务的评估详情。例如，使用data = load_dataset("open-llm-leaderboard/details_NotAiLOL__Boundary-Meta-Llama-3-2x8B-MoE", "harness_winogrande_5", split="train")即可加载Winogrande任务的最新结果。对于需要访问历史运行数据的用户，亦可直接引用时间戳命名的分割名称，从而实现对模型性能演变轨迹的细致探究。

背景与挑战

背景概述

在大语言模型（LLM）领域，模型性能的公正、全面评估一直是推动技术发展的核心挑战。Open LLM Leaderboard由HuggingFace团队于2023年发起，旨在通过标准化的评测基准，为社区提供透明、可复现的模型能力对比。该数据集记录了模型NotAiLOL/Boundary-Meta-Llama-3-2x8B-MoE在2024年4月19日的完整评估过程，覆盖ARC-Challenge、HellaSwag、MMLU、TruthfulQA、Winogrande和GSM8K等63个细分任务，横跨常识推理、数学计算、知识问答与事实一致性等多个维度。作为混合专家（MoE）架构的探索性模型，其评测数据不仅揭示了当前MoE模型在复杂推理任务上的潜力与局限，更为后续架构优化与训练策略调整提供了宝贵的实证依据，对推动高效、高性能语言模型的发展具有重要参考价值。

当前挑战

该数据集所反映的核心挑战集中于两大层面。其一，模型在多样化任务中表现不均衡：在HellaSwag（归一化准确率78.55%）和GSM8K（68.69%）等任务上表现尚可，但在MMLU的抽象代数（32%）、大学数学（39%）及全球常识（40%）等细粒度知识领域准确率偏低，揭示出模型在深层符号推理与跨领域知识泛化方面的结构性短板。其二，构建过程中面临评测标准化与可复现性难题：数据集需自动整合来自不同任务、不同随机种子（如5-shot、10-shot、25-shot）的评测结果，并确保时间戳版本与最新结果的一致性；同时，TruthfulQA等任务采用多选评分（MC1、MC2），其指标计算复杂，对评测管道的鲁棒性提出了更高要求。

常用场景

经典使用场景

在大型语言模型评估领域，Open LLM Leaderboard上的评估结果数据集已成为衡量模型性能的黄金标准。该数据集记录了NotAiLOL/Boundary-Meta-Llama-3-2x8B-MoE模型在63个任务配置上的详细表现，涵盖ARC挑战、HellaSwag、MMLU、TruthfulQA、WinoGrande和GSM8K等经典基准。研究者可借助该数据集深入分析模型在常识推理、知识问答、数学求解及语言理解等多维度的能力分布，通过加载各任务配置下的细粒度结果，精准定位模型的优势领域与薄弱环节。这种精细化的评估框架为模型迭代与优化提供了可量化的参照系，推动了语言模型性能评估的标准化进程。

解决学术问题

该数据集系统性地回应了如何客观、全面地评估大型语言模型能力的学术难题。传统评估往往局限于单一任务或小规模测试集，难以反映模型在复杂真实场景中的泛化能力。通过集成57个MMLU子任务、对抗性推理任务及数学应用题等多样化评估维度，该数据集构建了一个多任务、多领域的综合评估体系。它不仅揭示了模型在知识记忆与逻辑推理上的权衡，还通过TruthfulQA等任务衡量了模型的真实性倾向，为理解模型的知识边界与推理缺陷提供了实证基础。这种评估范式极大地促进了模型透明度与可信度的学术讨论。

衍生相关工作

该数据集的发布催生了一系列关于模型评估方法论与模型压缩的经典工作。研究者基于其细粒度结果，提出了针对混合专家模型（MoE）的专家路由分析技术，通过关联任务性能与专家激活模式，揭示了MoE架构中知识分布的规律。同时，该数据集被用于验证参数高效微调方法（如LoRA）在不同任务上的迁移效果，推动了轻量化模型部署技术的发展。此外，它作为Open LLM Leaderboard生态的核心组件，激励了社区开发出诸如模型性能预测器、评估任务难度量化工具等衍生资源，进一步丰富了语言模型评估的理论与实践体系。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集