open-llm-leaderboard-old/details_LeroyDyer__Mixtral_AI_Cyber_MegaMind_3_0

Name: open-llm-leaderboard-old/details_LeroyDyer__Mixtral_AI_Cyber_MegaMind_3_0
Creator: open-llm-leaderboard-old
Published: 2024-04-05 07:54:33
License: 暂无描述

Hugging Face2024-04-05 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/open-llm-leaderboard-old/details_LeroyDyer__Mixtral_AI_Cyber_MegaMind_3_0

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是在Open LLM Leaderboard上对模型LeroyDyer/Mixtral_AI_Cyber_MegaMind_3_0进行评估运行时自动创建的。数据集由63个配置组成，每个配置对应一个被评估的任务。数据集包含一次运行的数据，每次运行在每个配置中表示为特定的分割，分割名称使用运行的时间戳。train分割始终指向最新的结果。一个名为results的额外配置存储了所有运行的聚合结果，这些结果用于计算和显示Open LLM Leaderboard上的聚合指标。README还提供了如何使用Python中的datasets库加载运行细节的示例。

提供机构：

open-llm-leaderboard-old

原始信息汇总

数据集概述

数据集简介

该数据集是在对模型 LeroyDyer/Mixtral_AI_Cyber_MegaMind_3_0 进行评估运行期间自动创建的，用于 Open LLM Leaderboard。

数据集组成

数据集包含 63 个配置，每个配置对应一个评估任务。
数据集从 1 次运行中创建，每次运行可以在每个配置中找到特定的分割，分割名称使用运行的时间戳。
"train" 分割始终指向最新的结果。
额外的 "results" 配置存储所有运行结果的聚合，用于计算和显示 Open LLM Leaderboard 上的聚合指标。

数据加载示例

python from datasets import load_dataset data = load_dataset("open-llm-leaderboard/details_LeroyDyer__Mixtral_AI_Cyber_MegaMind_3_0", "harness_winogrande_5", split="train")

最新结果

以下是 2024-04-05T07:51:50.830300 运行的最新结果：

python { "all": { "acc": 0.6280455850912913, "acc_stderr": 0.03239511074899669, "acc_norm": 0.6301178155217618, "acc_norm_stderr": 0.033049663655951744, "mc1": 0.423500611995104, "mc1_stderr": 0.01729742144853473, "mc2": 0.5900607414220277, "mc2_stderr": 0.015395835001967487 }, "harness|arc:challenge|25": { "acc": 0.6177474402730375, "acc_stderr": 0.014200454049979282, "acc_norm": 0.6390784982935154, "acc_norm_stderr": 0.014034761386175452 }, "harness|hellaswag|10": { "acc": 0.6670981876120294, "acc_stderr": 0.004702886273189422, "acc_norm": 0.8546106353316073, "acc_norm_stderr": 0.0035177257870177463 }, "harness|hendrycksTest-abstract_algebra|5": { "acc": 0.29, "acc_stderr": 0.045604802157206845, "acc_norm": 0.29, "acc_norm_stderr": 0.045604802157206845 }, "harness|hendrycksTest-anatomy|5": { "acc": 0.5851851851851851, "acc_stderr": 0.04256193767901408, "acc_norm": 0.5851851851851851, "acc_norm_stderr": 0.04256193767901408 }, "harness|hendrycksTest-astronomy|5": { "acc": 0.6907894736842105, "acc_stderr": 0.037610708698674805, "acc_norm": 0.6907894736842105, "acc_norm_stderr": 0.037610708698674805 }, "harness|hendrycksTest-business_ethics|5": { "acc": 0.58, "acc_stderr": 0.049604496374885836, "acc_norm": 0.58, "acc_norm_stderr": 0.049604496374885836 }, "harness|hendrycksTest-clinical_knowledge|5": { "acc": 0.7018867924528301, "acc_stderr": 0.028152837942493875, "acc_norm": 0.7018867924528301, "acc_norm_stderr": 0.028152837942493875 }, "harness|hendrycksTest-college_biology|5": { "acc": 0.7569444444444444, "acc_stderr": 0.03586879280080341, "acc_norm": 0.7569444444444444, "acc_norm_stderr": 0.03586879280080341 }, "harness|hendrycksTest-college_chemistry|5": { "acc": 0.42, "acc_stderr": 0.049604496374885836, "acc_norm": 0.42, "acc_norm_stderr": 0.049604496374885836 }, "harness|hendrycksTest-college_computer_science|5": { "acc": 0.49, "acc_stderr": 0.05024183937956912, "acc_norm": 0.49, "acc_norm_stderr": 0.05024183937956912 }, "harness|hendrycksTest-college_mathematics|5": { "acc": 0.3, "acc_stderr": 0.046056618647183814, "acc_norm": 0.3, "acc_norm_stderr": 0.046056618647183814 }, "harness|hendrycksTest-college_medicine|5": { "acc": 0.6416184971098265, "acc_stderr": 0.03656343653353159, "acc_norm": 0.6416184971098265, "acc_norm_stderr": 0.03656343653353159 }, "harness|hendrycksTest-college_physics|5": { "acc": 0.3627450980392157, "acc_stderr": 0.047840607041056527, "acc_norm": 0.3627450980392157, "acc_norm_stderr": 0.047840607041056527 }, "harness|hendrycksTest-computer_security|5": { "acc": 0.79, "acc_stderr": 0.040936018074033256, "acc_norm": 0.79, "acc_norm_stderr": 0.040936018074033256 }, "harness|hendrycksTest-conceptual_physics|5": { "acc": 0.574468085106383, "acc_stderr": 0.03232146916224468, "acc_norm": 0.574468085106383, "acc_norm_stderr": 0.03232146916224468 }, "harness|hendrycksTest-econometrics|5": { "acc": 0.45614035087719296, "acc_stderr": 0.046854730419077895, "acc_norm": 0.45614035087719296, "acc_norm_stderr": 0.046854730419077895 }, "harness|hendrycksTest-electrical_engineering|5": { "acc": 0.5586206896551724, "acc_stderr": 0.04137931034482757, "acc_norm": 0.5586206896551724, "acc_norm_stderr": 0.04137931034482757 }, "harness|hendrycksTest-elementary_mathematics|5": { "acc": 0.4126984126984127, "acc_stderr": 0.025355741263055266, "acc_norm": 0.4126984126984127, "acc_norm_stderr": 0.025355741263055266 }, "harness|hendrycksTest-formal_logic|5": { "acc": 0.4126984126984127, "acc_stderr": 0.04403438954768177, "acc_norm": 0.4126984126984127, "acc_norm_stderr": 0.04403438954768177 }, "harness|hendrycksTest-global_facts|5": { "acc": 0.34, "acc_stderr": 0.04760952285695236, "acc_norm": 0.34, "acc_norm_stderr": 0.04760952285695236 }, "harness|hendrycksTest-high_school_biology|5": { "acc": 0.7580645161290323, "acc_stderr": 0.024362599693031083, "acc_norm": 0.7580645161290323, "acc_norm_stderr": 0.024362599693031083 }, "harness|hendrycksTest-high_school_chemistry|5": { "acc": 0.5172413793103449, "acc_stderr": 0.035158955511656986, "acc_norm": 0.5172413793103449, "acc_norm_stderr": 0.035158955511656986 }, "harness|hendrycksTest-high_school_computer_science|5": { "acc": 0.66, "acc_stderr": 0.04760952285695237, "acc_norm": 0.66, "acc_norm_stderr": 0.04760952285695237 }, "harness|hendrycksTest-high_school_european_history|5": { "acc": 0.7454545454545455, "acc_stderr": 0.03401506715249039, "acc_norm": 0.7454545454545455, "acc_norm_stderr": 0.03401506715249039 }, "harness|hendrycksTest-high_school_geography|5": { "acc": 0.797979797979798, "acc_stderr": 0.028606204289229865, "acc_norm": 0.797979797979798, "acc_norm_stderr": 0.028606204289229865 }, "harness|hendrycksTest-high_school_government_and_politics|5": { "acc": 0.8497409326424871, "acc_stderr": 0.025787723180723872, "acc_norm": 0.8497409326424871, "acc_norm_stderr": 0.025787723180723872 }, "harness|hendrycksTest-high_school_macroeconomics|5": { "acc": 0.6333333333333333, "acc_stderr": 0.02443301646605246, "acc_norm": 0.6333333333333333, "acc_norm_stderr": 0.02443301646605246 }, "harness|hendrycksTest-high_school_mathematics|5": { "acc": 0.3148148148148148, "acc_stderr": 0.0283175334960

搜集汇总

数据集介绍

构建方式

该数据集源于Open LLM Leaderboard对模型LeroyDyer/Mixtral_AI_Cyber_MegaMind_3_0的自动化评估流程。数据集由63个配置构成，每个配置对应一项被评估的任务，覆盖了从常识推理到专业学科知识的广泛领域。数据源自单次运行，每次运行的结果以时间戳命名的独立分割形式存储于各配置中，其中'train'分割始终指向最新结果。此外，一个名为'results'的额外配置汇集了所有聚合指标，用于在排行榜上展示模型的综合性能。

特点

数据集的核心特色在于其精细化的任务划分与动态更新的机制。63个配置分别对应如ARC挑战赛、HellaSwag、GSM8K以及涵盖数学、医学、法律等57个学科的MMLU基准测试，每个任务均有独立的准确率与标准误差记录。时间戳分割的设计使得研究者能够追溯历史评估结果，而'train'分割自动指向最新数据，确保了时效性。这种结构不仅提供了模型在多样化任务上的细粒度性能画像，还支持对评估过程的深入复盘与比较。

使用方法

使用该数据集时，可通过HuggingFace的datasets库便捷加载。用户需指定目标配置名称（如'harness_winogrande_5'）和所需分割（如'train'），即可获取对应任务的详细评估结果。例如，执行load_dataset函数并传入数据集标识与配置名，即可加载Winogrande任务的准确率数据。加载后的数据可用于复现排行榜指标、分析模型在特定领域的表现，或作为基准进行后续模型的对比研究。

背景与挑战

背景概述

随着大语言模型（LLM）能力的迅猛发展，如何系统、公平地评估其性能成为自然语言处理领域的核心挑战之一。Open LLM Leaderboard由HuggingFace团队于2023年发起，旨在为开源社区提供一个标准化的模型评测平台，其核心研究问题在于如何通过多维度的基准测试（如推理、常识、数学、多任务知识等）来全面反映模型的真实能力。该数据集记录了模型LeroyDyer/Mixtral_AI_Cyber_MegaMind_3_0在2024年4月的一次完整评测结果，涵盖了ARC-Challenge、HellaSwag、MMLU、TruthfulQA、Winogrande和GSM8K等63项任务配置，其评测指标包括准确率、标准化准确率以及多项选择题的MC1/MC2分数。该数据集不仅为模型开发者提供了细粒度的性能洞察，也推动了社区对LLM能力边界与评测方法论的深入探讨。

当前挑战

当前数据集所面临的挑战主要体现在两个层面。在领域问题层面，尽管评测覆盖了推理、常识、数学及多学科知识等广泛能力，但模型在抽象代数（准确率29%）、大学数学（30%）和高中物理（33.1%）等专业领域表现欠佳，暴露出LLM在复杂逻辑推理与专业学科知识上的系统性短板，这要求未来评测需进一步强化对高阶认知能力的区分度。在构建过程层面，该数据集由单次评测运行生成，其时间戳分片设计虽便于追踪性能演变，但单一运行可能引入随机性噪声，且不同任务配置间的样本量差异（如MMLU子任务仅5-shot）可能影响统计显著性，如何在保持评测效率的同时提升结果稳健性是一大难题。

常用场景

经典使用场景

该数据集源于Open LLM Leaderboard对LeroyDyer/Mixtral_AI_Cyber_MegaMind_3_0模型的自动化评估过程，包含63个任务配置，覆盖了从常识推理到数学求解的多样化基准。其经典使用场景在于为研究者提供细粒度的模型性能剖析，通过加载特定任务（如winogrande、gsm8k）的详细评估结果，深入探究模型在语言理解、逻辑推理和知识应用等维度的表现。这种结构化的评估数据成为对比不同大语言模型能力的标准化工具，尤其适用于分析模型在复杂多任务环境下的泛化特性。

解决学术问题

该数据集系统性地回应了大语言模型评估中的可重复性与透明度难题。传统研究常因评估流程不统一而导致结果难以横向比较，而该数据集通过固定评估框架（如harness）和公开的细粒度结果，为学界提供了可复现的基准。它解决了模型性能归因模糊的问题，使研究者能精准定位模型在特定领域（如医学、法律）的优势与短板，从而推动对模型知识边界和推理机制的深入理解。其影响在于构建了开放、标准化的评估生态，加速了语言模型能力的科学度量与迭代。

衍生相关工作

该数据集衍生了一系列重要工作，其中最显著的是推动了Open LLM Leaderboard评估框架的标准化与普及。基于此数据集，研究者开发了自动化评估流水线，并催生了针对特定任务的性能分析工具，如用于可视化模型在HellaSwag或TruthfulQA上表现的插件。此外，该数据集为后续的模型集成与微调策略提供了基线，例如通过分析其在MMLU子任务上的分布，研究者设计了领域增强的微调方法，显著提升了模型在专业考试（如法律、医学）中的泛化能力，这些工作进一步巩固了该数据集作为大语言模型评估基石的地位。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集