open-llm-leaderboard-old/details_dddsaty__FusionNet_7Bx2_MoE_Ko_DPO_Adapter_Attach

Name: open-llm-leaderboard-old/details_dddsaty__FusionNet_7Bx2_MoE_Ko_DPO_Adapter_Attach
Creator: open-llm-leaderboard-old
Published: 2024-02-14 04:20:28
License: 暂无描述

Hugging Face2024-02-14 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/open-llm-leaderboard-old/details_dddsaty__FusionNet_7Bx2_MoE_Ko_DPO_Adapter_Attach

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是在评估模型dddsaty/FusionNet_7Bx2_MoE_Ko_DPO_Adapter_Attach时自动创建的，评估过程在Open LLM Leaderboard上进行。数据集由63个配置组成，每个配置对应一个评估任务。数据集从1次运行中创建，每次运行可以在每个配置中找到特定的分割，分割以运行的时间戳命名。train分割始终指向最新的结果。此外，results配置存储了所有运行的聚合结果，用于计算和显示Open LLM Leaderboard上的聚合指标。

提供机构：

open-llm-leaderboard-old

原始信息汇总

数据集概述

数据集摘要

该数据集是在评估模型dddsaty/FusionNet_7Bx2_MoE_Ko_DPO_Adapter_Attach在Open LLM Leaderboard上的运行过程中自动创建的。

数据集组成

该数据集包含63个配置，每个配置对应一个评估任务。
数据集从1次运行中创建，每次运行可以在每个配置中找到特定的分割，分割名称使用运行的时间戳。
"train"分割始终指向最新的结果。
一个额外的配置"results"存储所有运行的聚合结果，用于计算和显示在Open LLM Leaderboard上的聚合指标。

数据加载示例

python from datasets import load_dataset data = load_dataset("open-llm-leaderboard/details_dddsaty__FusionNet_7Bx2_MoE_Ko_DPO_Adapter_Attach", "harness_winogrande_5", split="train")

最新结果

以下是2024-02-14T04:17:47.999729运行的最新结果：

python { "all": { "acc": 0.6570390402660917, "acc_stderr": 0.0319899764012956, "acc_norm": 0.6558538110941428, "acc_norm_stderr": 0.03267458805939838, "mc1": 0.5826193390452876, "mc1_stderr": 0.017262891063272164, "mc2": 0.7124230121816638, "mc2_stderr": 0.01476530310042609 }, "harness|arc:challenge|25": { "acc": 0.7158703071672355, "acc_stderr": 0.013179442447653886, "acc_norm": 0.7389078498293515, "acc_norm_stderr": 0.012835523909473836 }, "harness|hellaswag|10": { "acc": 0.7220673172674766, "acc_stderr": 0.004470644845242895, "acc_norm": 0.8893646683927504, "acc_norm_stderr": 0.0031303894668332005 }, "harness|hendrycksTest-abstract_algebra|5": { "acc": 0.34, "acc_stderr": 0.04760952285695235, "acc_norm": 0.34, "acc_norm_stderr": 0.04760952285695235 }, "harness|hendrycksTest-anatomy|5": { "acc": 0.674074074074074, "acc_stderr": 0.040491220417025055, "acc_norm": 0.674074074074074, "acc_norm_stderr": 0.040491220417025055 }, "harness|hendrycksTest-astronomy|5": { "acc": 0.6973684210526315, "acc_stderr": 0.037385206761196686, "acc_norm": 0.6973684210526315, "acc_norm_stderr": 0.037385206761196686 }, "harness|hendrycksTest-business_ethics|5": { "acc": 0.65, "acc_stderr": 0.0479372485441102, "acc_norm": 0.65, "acc_norm_stderr": 0.0479372485441102 }, "harness|hendrycksTest-clinical_knowledge|5": { "acc": 0.7056603773584905, "acc_stderr": 0.02804918631569525, "acc_norm": 0.7056603773584905, "acc_norm_stderr": 0.02804918631569525 }, "harness|hendrycksTest-college_biology|5": { "acc": 0.7708333333333334, "acc_stderr": 0.03514697467862388, "acc_norm": 0.7708333333333334, "acc_norm_stderr": 0.03514697467862388 }, "harness|hendrycksTest-college_chemistry|5": { "acc": 0.49, "acc_stderr": 0.05024183937956912, "acc_norm": 0.49, "acc_norm_stderr": 0.05024183937956912 }, "harness|hendrycksTest-college_computer_science|5": { "acc": 0.53, "acc_stderr": 0.050161355804659205, "acc_norm": 0.53, "acc_norm_stderr": 0.050161355804659205 }, "harness|hendrycksTest-college_mathematics|5": { "acc": 0.3, "acc_stderr": 0.046056618647183814, "acc_norm": 0.3, "acc_norm_stderr": 0.046056618647183814 }, "harness|hendrycksTest-college_medicine|5": { "acc": 0.6589595375722543, "acc_stderr": 0.03614665424180826, "acc_norm": 0.6589595375722543, "acc_norm_stderr": 0.03614665424180826 }, "harness|hendrycksTest-college_physics|5": { "acc": 0.39215686274509803, "acc_stderr": 0.048580835742663454, "acc_norm": 0.39215686274509803, "acc_norm_stderr": 0.048580835742663454 }, "harness|hendrycksTest-computer_security|5": { "acc": 0.76, "acc_stderr": 0.04292346959909283, "acc_norm": 0.76, "acc_norm_stderr": 0.04292346959909283 }, "harness|hendrycksTest-conceptual_physics|5": { "acc": 0.5659574468085107, "acc_stderr": 0.03240038086792747, "acc_norm": 0.5659574468085107, "acc_norm_stderr": 0.03240038086792747 }, "harness|hendrycksTest-econometrics|5": { "acc": 0.49122807017543857, "acc_stderr": 0.04702880432049615, "acc_norm": 0.49122807017543857, "acc_norm_stderr": 0.04702880432049615 }, "harness|hendrycksTest-electrical_engineering|5": { "acc": 0.5448275862068965, "acc_stderr": 0.04149886942192117, "acc_norm": 0.5448275862068965, "acc_norm_stderr": 0.04149886942192117 }, "harness|hendrycksTest-elementary_mathematics|5": { "acc": 0.42063492063492064, "acc_stderr": 0.025424835086923996, "acc_norm": 0.42063492063492064, "acc_norm_stderr": 0.025424835086923996 }, "harness|hendrycksTest-formal_logic|5": { "acc": 0.5079365079365079, "acc_stderr": 0.044715725362943486, "acc_norm": 0.5079365079365079, "acc_norm_stderr": 0.044715725362943486 }, "harness|hendrycksTest-global_facts|5": { "acc": 0.34, "acc_stderr": 0.04760952285695235, "acc_norm": 0.34, "acc_norm_stderr": 0.04760952285695235 }, "harness|hendrycksTest-high_school_biology|5": { "acc": 0.7967741935483871, "acc_stderr": 0.02289168798455496, "acc_norm": 0.7967741935483871, "acc_norm_stderr": 0.02289168798455496 }, "harness|hendrycksTest-high_school_chemistry|5": { "acc": 0.5172413793103449, "acc_stderr": 0.035158955511656986, "acc_norm": 0.5172413793103449, "acc_norm_stderr": 0.035158955511656986 }, "harness|hendrycksTest-high_school_computer_science|5": { "acc": 0.69, "acc_stderr": 0.04648231987117316, "acc_norm": 0.69, "acc_norm_stderr": 0.04648231987117316 }, "harness|hendrycksTest-high_school_european_history|5": { "acc": 0.7757575757575758, "acc_stderr": 0.032568666616811015, "acc_norm": 0.7757575757575758, "acc_norm_stderr": 0.032568666616811015 }, "harness|hendrycksTest-high_school_geography|5": { "acc": 0.8080808080808081, "acc_stderr": 0.028057791672989017, "acc_norm": 0.8080808080808081, "acc_norm_stderr": 0.028057791672989017 }, "harness|hendrycksTest-high_school_government_and_politics|5": { "acc": 0.9067357512953368, "acc_stderr": 0.020986854593289733, "acc_norm": 0.9067357512953368, "acc_norm_stderr": 0.020986854593289733 }, "harness|hendrycksTest-high_school_macroeconomics|5": { "acc": 0.6564102564102564, "acc_stderr": 0.024078696580635477, "acc_norm": 0.6564102564102564, "acc_norm_stderr": 0.024078696580635477 }, "harness|hendrycksTest-high_school_mathematics|5": { "acc": 0.34444444444444444, "acc_stderr": 0.028972648884844267

搜集汇总

数据集介绍

构建方式

在大型语言模型评测领域，Open LLM Leaderboard作为权威基准平台，为模型性能的横向对比提供了标准化框架。本数据集即是在此框架下，针对模型dddsaty/FusionNet_7Bx2_MoE_Ko_DPO_Adapter_Attach的一次完整评估过程中自动生成的产物。数据集囊括了63个配置，每个配置精准对应一项被评估的任务。其构建源自单一运行轮次，每一轮次的结果均以时间戳为标识，独立存储为特定配置下的一个分割（split），而“train”分割则始终指向最新一轮的评估结果。此外，一个名为“results”的额外配置汇总了运行的全部聚合指标，用于在Leaderboard上计算和展示最终分数。所有评估细节以Parquet格式文件存放，按任务和时间戳组织成清晰的目录结构。

使用方法

研究者可通过Hugging Face Datasets库便捷地加载该数据集。具体而言，调用load_dataset函数并指定数据集名称、目标配置名称（如“harness_winogrande_5”）以及所需的分割（如“train”），即可获取对应任务的评估明细。每个配置下的数据以Parquet格式存储，支持高效读取。若需访问某一特定运行轮次的结果，可通过该轮次的时间戳字符串作为分割名称进行加载。此外，通过加载“results”配置，可直接获取所有任务的聚合指标，便于快速对比模型整体性能。数据加载后，用户可利用Pandas等工具进行自定义分析与可视化。

背景与挑战

背景概述

随着大规模语言模型在自然语言处理领域的迅猛发展，如何公正且全面地评估模型的性能已成为一个核心议题。在此背景下，HuggingFace社区于2023年推出了Open LLM Leaderboard，旨在为各类开源语言模型提供一个标准化的评测平台。该数据集是2024年2月14日对模型dddsaty/FusionNet_7Bx2_MoE_Ko_DPO_Adapter_Attach进行自动评估的产物，由HuggingFace团队主导构建。其核心研究问题在于通过涵盖常识推理、数学运算、专业知识等多维度的63项任务（如ARC-Challenge、HellaSwag、GSM8K及涵盖57个学科的MMLU测试），系统性地衡量混合专家架构（MoE）与直接偏好优化（DPO）微调策略对模型表现的影响。该数据集不仅为比较不同训练范式提供了可复现的基准，更推动了开源社区对模型鲁棒性与泛化能力的深入理解。

当前挑战

该数据集所解决的领域挑战在于，传统单一任务的评测方式难以反映模型在复杂真实场景中的综合能力。通过集成多任务评估框架，它揭示了模型在抽象代数（准确率34%）与高中数学（34.4%）等推理密集型任务上的显著短板，同时展现了其在高中政府与政治（90.7%）等知识记忆型任务上的优势，凸显了当前MoE模型在逻辑推理与常识应用间的能力失衡。构建过程中面临的挑战包括：需确保63个配置（每个对应一项任务）的评估流程自动化与标准化，避免因任务采样差异导致结果偏差；处理不同任务间评估指标（如acc_norm、mc1）的异构性，并维护时间戳分片（如2024-02-14T04:17:47.999729）以追踪模型迭代的渐进变化，这对数据存储与版本管理提出了较高要求。

常用场景

经典使用场景

在大型语言模型（LLM）的评估与比较研究中，该数据集扮演着至关重要的角色。它专为Open LLM Leaderboard设计，系统性地记录了FusionNet_7Bx2_MoE_Ko_DPO_Adapter_Attach模型在63项不同任务上的详细性能指标，涵盖ARC-Challenge、HellaSwag、GSM8K、TruthfulQA及Winogrande等经典基准。研究者通过加载特定配置与时间戳分割，能够精确复现历史评估结果，或利用最新分割追踪模型迭代进展。这一结构化数据集为跨模型、跨任务的能力横向对比提供了标准化平台，成为验证模型改进效果、诊断能力短板的核心工具。

解决学术问题

该数据集直面大模型评估中存在的可重复性危机与指标碎片化问题。通过统一存储多维度评测结果（如准确率、标准误差、归一化分数），它使学术界能够摆脱依赖零散日志或私有报告的困境。其设计解决了三个关键痛点：其一，为模型在不同知识领域（从抽象代数到病毒学）的表现提供细粒度证据，助力识别能力分布的不均衡性；其二，通过记录单次运行的完整快照，支持对评估变异性的统计推断；其三，以标准化格式公开聚合结果，促进了评测流程的透明化与可审计性，从而夯实了模型比较研究的科学根基。

实际应用

在产业界，该数据集被广泛用于模型选型与质量保障流程。企业团队可依据该数据集中的多任务成绩（如GSM8K数学推理、ARC科学常识），在部署前筛选出最适合特定场景的基座模型。例如，教育科技公司会重点考察模型在HendrycksTest高中学科子集上的表现，以评估其作为智能辅导系统的知识覆盖面。此外，模型迭代过程中的回归测试也依赖该数据集——每当微调或压缩模型后，工程师通过对比最新分割与历史数据，可迅速发现某些能力（如形式逻辑推理）是否出现退化，从而确保产品更新不损害核心性能。

数据集最近研究