open-llm-leaderboard-old/details_deepseek-ai__deepseek-moe-16b-base

Name: open-llm-leaderboard-old/details_deepseek-ai__deepseek-moe-16b-base
Creator: open-llm-leaderboard-old
Published: 2024-01-15 06:36:22
License: 暂无描述

Hugging Face2024-01-15 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/open-llm-leaderboard-old/details_deepseek-ai__deepseek-moe-16b-base

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是在模型deepseek-ai/deepseek-moe-16b-base的评估运行期间自动创建的，用于Open LLM Leaderboard的评估。数据集由63个配置组成，每个配置对应一个评估任务。数据集从1次运行中创建，每次运行都可以在特定配置中找到，并以运行的时间戳命名。train分割始终指向最新的结果。此外，results配置存储了所有运行的聚合结果，并用于计算和显示Open LLM Leaderboard上的聚合指标。

提供机构：

open-llm-leaderboard-old

原始信息汇总

数据集概述

该数据集是在对模型 deepseek-ai/deepseek-moe-16b-base 进行评估运行期间自动创建的，用于 Open LLM Leaderboard。

数据集组成

数据集包含 63 个配置，每个配置对应一个评估任务。
数据集从 1 次运行中创建，每次运行可以在每个配置中找到特定的分割，分割名称使用运行的时间戳。
每个配置中的 "train" 分割总是指向最新的结果。
一个额外的配置 "results" 存储所有运行的聚合结果，用于计算和显示 Open LLM Leaderboard 上的聚合指标。

数据加载示例

python from datasets import load_dataset data = load_dataset("open-llm-leaderboard/details_deepseek-ai__deepseek-moe-16b-base", "harness_winogrande_5", split="train")

最新结果

以下是最新结果的摘要：

python { "all": { "acc": 0.465522984657348, "acc_stderr": 0.034469796748715614, "acc_norm": 0.46990944729307677, "acc_norm_stderr": 0.03523647567293407, "mc1": 0.23745410036719705, "mc1_stderr": 0.014896277441041836, "mc2": 0.3607930335233562, "mc2_stderr": 0.01354653975819568 }, "harness|arc:challenge|25": { "acc": 0.49658703071672355, "acc_stderr": 0.014611050403244077, "acc_norm": 0.5324232081911263, "acc_norm_stderr": 0.014580637569995423 }, "harness|hellaswag|10": { "acc": 0.5957976498705437, "acc_stderr": 0.004897340793314379, "acc_norm": 0.7977494523003386, "acc_norm_stderr": 0.004008571431483689 }, "harness|hendrycksTest-abstract_algebra|5": { "acc": 0.27, "acc_stderr": 0.044619604333847415, "acc_norm": 0.27, "acc_norm_stderr": 0.044619604333847415 }, "harness|hendrycksTest-anatomy|5": { "acc": 0.3925925925925926, "acc_stderr": 0.04218506215368879, "acc_norm": 0.3925925925925926, "acc_norm_stderr": 0.04218506215368879 }, "harness|hendrycksTest-astronomy|5": { "acc": 0.4605263157894737, "acc_stderr": 0.04056242252249034, "acc_norm": 0.4605263157894737, "acc_norm_stderr": 0.04056242252249034 }, "harness|hendrycksTest-business_ethics|5": { "acc": 0.48, "acc_stderr": 0.050211673156867795, "acc_norm": 0.48, "acc_norm_stderr": 0.050211673156867795 }, "harness|hendrycksTest-clinical_knowledge|5": { "acc": 0.4716981132075472, "acc_stderr": 0.0307235352490061, "acc_norm": 0.4716981132075472, "acc_norm_stderr": 0.0307235352490061 }, "harness|hendrycksTest-college_biology|5": { "acc": 0.5347222222222222, "acc_stderr": 0.04171115858181618, "acc_norm": 0.5347222222222222, "acc_norm_stderr": 0.04171115858181618 }, "harness|hendrycksTest-college_chemistry|5": { "acc": 0.37, "acc_stderr": 0.048523658709391, "acc_norm": 0.37, "acc_norm_stderr": 0.048523658709391 }, "harness|hendrycksTest-college_computer_science|5": { "acc": 0.44, "acc_stderr": 0.04988876515698589, "acc_norm": 0.44, "acc_norm_stderr": 0.04988876515698589 }, "harness|hendrycksTest-college_mathematics|5": { "acc": 0.3, "acc_stderr": 0.046056618647183814, "acc_norm": 0.3, "acc_norm_stderr": 0.046056618647183814 }, "harness|hendrycksTest-college_medicine|5": { "acc": 0.3930635838150289, "acc_stderr": 0.0372424959581773, "acc_norm": 0.3930635838150289, "acc_norm_stderr": 0.0372424959581773 }, "harness|hendrycksTest-college_physics|5": { "acc": 0.27450980392156865, "acc_stderr": 0.04440521906179327, "acc_norm": 0.27450980392156865, "acc_norm_stderr": 0.04440521906179327 }, "harness|hendrycksTest-computer_security|5": { "acc": 0.62, "acc_stderr": 0.048783173121456316, "acc_norm": 0.62, "acc_norm_stderr": 0.048783173121456316 }, "harness|hendrycksTest-conceptual_physics|5": { "acc": 0.37446808510638296, "acc_stderr": 0.031639106653672915, "acc_norm": 0.37446808510638296, "acc_norm_stderr": 0.031639106653672915 }, "harness|hendrycksTest-econometrics|5": { "acc": 0.2719298245614035, "acc_stderr": 0.041857744240220554, "acc_norm": 0.2719298245614035, "acc_norm_stderr": 0.041857744240220554 }, "harness|hendrycksTest-electrical_engineering|5": { "acc": 0.4827586206896552, "acc_stderr": 0.04164188720169377, "acc_norm": 0.4827586206896552, "acc_norm_stderr": 0.04164188720169377 }, "harness|hendrycksTest-elementary_mathematics|5": { "acc": 0.29365079365079366, "acc_stderr": 0.023456037383982022, "acc_norm": 0.29365079365079366, "acc_norm_stderr": 0.023456037383982022 }, "harness|hendrycksTest-formal_logic|5": { "acc": 0.30952380952380953, "acc_stderr": 0.04134913018303316, "acc_norm": 0.30952380952380953, "acc_norm_stderr": 0.04134913018303316 }, "harness|hendrycksTest-global_facts|5": { "acc": 0.33, "acc_stderr": 0.047258156262526045, "acc_norm": 0.33, "acc_norm_stderr": 0.047258156262526045 }, "harness|hendrycksTest-high_school_biology|5": { "acc": 0.4870967741935484, "acc_stderr": 0.028434533152681855, "acc_norm": 0.4870967741935484, "acc_norm_stderr": 0.028434533152681855 }, "harness|hendrycksTest-high_school_chemistry|5": { "acc": 0.2955665024630542, "acc_stderr": 0.032104944337514575, "acc_norm": 0.2955665024630542, "acc_norm_stderr": 0.032104944337514575 }, "harness|hendrycksTest-high_school_computer_science|5": { "acc": 0.46, "acc_stderr": 0.05009082659620332, "acc_norm": 0.46, "acc_norm_stderr": 0.05009082659620332 }, "harness|hendrycksTest-high_school_european_history|5": { "acc": 0.5393939393939394, "acc_stderr": 0.03892207016552012, "acc_norm": 0.5393939393939394, "acc_norm_stderr": 0.03892207016552012 }, "harness|hendrycksTest-high_school_geography|5": { "acc": 0.5555555555555556, "acc_stderr": 0.03540294377095367, "acc_norm": 0.5555555555555556, "acc_norm_stderr": 0.03540294377095367 }, "harness|hendrycksTest-high_school_government_and_politics|5": { "acc": 0.616580310880829, "acc_stderr": 0.03508984236295341, "acc_norm": 0.616580310880829, "acc_norm_stderr": 0.03508984236295341 }, "harness|hendrycksTest-high_school_macroeconomics|5": { "acc": 0.41025641025641024, "acc_stderr": 0.02493931390694078, "acc_norm": 0.41025641025641024, "acc_norm_stderr": 0.02493931390694078 }, "harness|hendrycksTest-high_school_mathematics|5": { "acc": 0.2518518518518518, "acc_stderr": 0.026466117538959912, "acc_norm": 0.2518518518518518, "acc_norm_stderr": 0.026466117538959912 }, "harness|hendrycksTest-

搜集汇总

数据集介绍

构建方式

在大型语言模型评测领域，Open LLM Leaderboard 为模型性能的标准化评估提供了重要平台。该数据集是针对 deepseek-ai/deepseek-moe-16b-base 模型在 Leaderboard 上的一次评估运行而自动生成的产物。其构建方式基于单一运行批次，该运行对应一个具体的时间戳，并以此作为数据集中的划分标识。数据集内涵盖了 63 个配置，每个配置分别对应一项被评估的任务（如 ARC-Challenge、HellaSwag、GSM8K 等），且每个配置下均包含以运行时间戳命名的划分。此外，数据集还特设了一个名为 "results" 的配置，用于汇总存储该次运行的所有聚合结果，这些聚合数据正是 Leaderboard 上计算与展示综合指标的直接来源。

使用方法

研究人员可通过 Hugging Face 的 datasets 库便捷地调用该资源。加载时需指定所需的配置名称（即任务名称，如 "harness_winogrande_5"）以及目标划分（如 "train" 以获取最新结果）。例如，执行 `load_dataset("open-llm-leaderboard/details_deepseek-ai__deepseek-moe-16b-base", "harness_winogrande_5", split="train")` 即可获取模型在 Winogrande 任务上的最新评测细节。若要回溯历史数据，则可将划分参数替换为对应运行的时间戳字符串。对于需要整体概览的用户，可直接加载 "results" 配置，该配置以 JSON 格式汇总了所有任务的聚合指标，便于进行跨任务的综合性能分析。

背景与挑战

背景概述

大规模语言模型的涌现能力催生了对其性能进行系统化评估的迫切需求，Open LLM Leaderboard应运而生，成为衡量开源大模型综合能力的标杆性基准。在此背景下，DeepSeek团队于2024年1月推出的deepseek-moe-16b-base模型，作为一款采用混合专家（MoE）架构的16B参数级语言模型，其评估数据被系统性地收录于open-llm-leaderboard/details_deepseek-ai__deepseek-moe-16b-base数据集中。该数据集由HuggingFace团队构建，核心研究人员包括Clémentine等，旨在通过标准化评测流水线（涵盖ARC-Challenge、HellaSwag、GSM8K、MMLU等63项任务）记录模型的细粒度表现，为MoE架构的效能验证提供可复现的实证基础。其影响力体现在为研究者提供了横跨常识推理、数学求解、多学科知识等维度的结构化评估结果，推动了稀疏激活模型在开源生态中的透明化发展。

当前挑战

该数据集所面临的挑战根植于大模型评估范式的固有复杂性。在领域问题层面，如何准确衡量MoE架构在稀疏激活条件下的知识泛化能力构成核心难题——例如GSM8K任务中模型仅取得17.29%的准确率，暴露出数学推理链的脆弱性；而MMLU子任务间高达0.27至0.74的准确率波动，揭示了模型在不同学科知识表征上的非均衡性。在构建过程中，挑战集中于评估流程的标准化与可追溯性：需确保63个配置项在单次运行中保持任务粒度的一致性，同时通过Parquet格式存储每轮评估的完整日志，以应对多次运行结果间的版本冲突。此外，如何将harness框架输出的原始分数（如acc_stderr）转化为可信的置信区间，并平衡评测成本与任务覆盖广度，亦是制约数据集时效性与扩展性的关键瓶颈。

常用场景

经典使用场景

在自然语言处理与大型语言模型评估的学术疆域中，Open LLM Leaderboard 上的 deepseek-moe-16b-base 评测数据集扮演着基准测试的核心角色。该数据集汇集了来自 ARC-Challenge、HellaSwag、GSM8K、Winogrande 以及涵盖 57 个学科的 MMLU 等经典任务的细粒度评测结果，为研究者提供了一份关于模型推理、常识理解、数学求解与知识掌握能力的完整画像。其经典用法在于，通过加载特定任务配置下的评测日志，研究者能够精准复现模型在各项指标上的表现，从而在可控的实验条件下横向对比不同架构或训练策略的语言模型。

解决学术问题

该数据集系统性地回应了大型语言模型性能评估中缺乏标准化、可复现细粒度指标的核心学术困境。传统上，模型评测往往局限于单一任务或粗略的宏观分数，难以揭示模型在特定认知维度上的优劣。而此数据集通过统一评测框架，将 ARC-Challenge 的推理能力、HellaSwag 的常识推理、GSM8K 的数学推理、MMLU 的多学科知识等任务整合于一炉，使研究者得以深入剖析模型在逻辑推理、事实记忆与数值计算等不同能力维度的表现差异。其意义在于为模型能力诊断提供了可靠的量化工具，推动了语言模型可解释性与鲁棒性研究的纵深发展。

实际应用

在实际应用层面，该数据集为模型选型与部署决策提供了坚实的实证依据。例如，在构建面向教育领域的智能问答系统时，开发者可根据模型在 MMLU 子任务上的细粒度得分，甄别其在生物、物理等特定学科上的知识短板；在开发数学解题助手时，GSM8K 的评测结果则直接反映了模型对多步推理任务的驾驭能力。此外，该数据集还赋能了模型压缩与蒸馏技术的效果验证，通过对比原始模型与轻量化版本在各项任务上的表现差异，工程团队能够在保持核心能力的前提下优化推理效率，从而降低部署成本。

数据集最近研究