five

open-llm-leaderboard-old/details_DopeorNope__SOLARC-MOE-10.7Bx6

收藏
Hugging Face2023-12-30 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/open-llm-leaderboard-old/details_DopeorNope__SOLARC-MOE-10.7Bx6
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是在Open LLM Leaderboard上对模型DopeorNope/SOLARC-MOE-10.7Bx6进行评估时自动创建的。数据集由63个配置组成,每个配置对应一个评估任务。数据集包含一次运行的结果,每次运行在每个配置中表示为特定的分割,train分割始终指向最新结果。此外,名为results的配置存储了所有运行的聚合结果,这些结果用于计算和显示Open LLM Leaderboard上的聚合指标。README还提供了如何使用Python中的datasets库加载运行细节的示例。

该数据集是在Open LLM Leaderboard上对模型DopeorNope/SOLARC-MOE-10.7Bx6进行评估时自动创建的。数据集由63个配置组成,每个配置对应一个评估任务。数据集包含一次运行的结果,每次运行在每个配置中表示为特定的分割,train分割始终指向最新结果。此外,名为results的配置存储了所有运行的聚合结果,这些结果用于计算和显示Open LLM Leaderboard上的聚合指标。README还提供了如何使用Python中的datasets库加载运行细节的示例。
提供机构:
open-llm-leaderboard-old
原始信息汇总

数据集概述

数据集简介

该数据集是在对模型 DopeorNope/SOLARC-MOE-10.7Bx6 进行评估运行期间自动创建的,用于 Open LLM Leaderboard

数据集组成

数据集包含 63 个配置,每个配置对应一个评估任务。数据集从 1 次运行中创建,每次运行可以在每个配置中找到特定的分割,分割名称使用运行的时间戳。"train" 分割始终指向最新的结果。

额外配置

一个额外的配置 "results" 存储了所有运行的聚合结果,用于计算并在 Open LLM Leaderboard 上显示聚合指标。

数据加载示例

python from datasets import load_dataset data = load_dataset("open-llm-leaderboard/details_DopeorNope__SOLARC-MOE-10.7Bx6", "harness_winogrande_5", split="train")

最新结果

这些是最新的结果,来自 2023-12-30T16:10:15.561942 的运行: python { "all": { "acc": 0.6673061205259359, "acc_stderr": 0.03162953125162339, "acc_norm": 0.6680593571406013, "acc_norm_stderr": 0.03227520657555408, "mc1": 0.5679314565483476, "mc1_stderr": 0.017341202394988327, "mc2": 0.7185493815661169, "mc2_stderr": 0.015019908551593323 }, "harness|arc:challenge|25": { "acc": 0.6843003412969283, "acc_stderr": 0.013582571095815291, "acc_norm": 0.7090443686006825, "acc_norm_stderr": 0.013273077865907593 }, "harness|hellaswag|10": { "acc": 0.7133041226847242, "acc_stderr": 0.004512940497462742, "acc_norm": 0.8839872535351524, "acc_norm_stderr": 0.003195857247704915 }, "harness|hendrycksTest-abstract_algebra|5": { "acc": 0.42, "acc_stderr": 0.049604496374885836, "acc_norm": 0.42, "acc_norm_stderr": 0.049604496374885836 }, # 其他任务的结果省略... }

配置详情

  • config_name: harness_arc_challenge_25

    • split: 2023_12_30T16_10_15.561942
      • path: **/details_harness|arc:challenge|25_2023-12-30T16-10-15.561942.parquet
    • split: latest
      • path: **/details_harness|arc:challenge|25_2023-12-30T16-10-15.561942.parquet
  • config_name: harness_gsm8k_5

    • split: 2023_12_30T16_10_15.561942
      • path: **/details_harness|gsm8k|5_2023-12-30T16-10-15.561942.parquet
    • split: latest
      • path: **/details_harness|gsm8k|5_2023-12-30T16-10-15.561942.parquet
  • config_name: harness_hellaswag_10

    • split: 2023_12_30T16_10_15.561942
      • path: **/details_harness|hellaswag|10_2023-12-30T16-10-15.561942.parquet
    • split: latest
      • path: **/details_harness|hellaswag|10_2023-12-30T16-10-15.561942.parquet
  • config_name: harness_hendrycksTest_5

    • split: 2023_12_30T16_10_15.561942
      • path:
        • **/details_harness|hendrycksTest-abstract_algebra|5_2023-12-30T16-10-15.561942.parquet
        • **/details_harness|hendrycksTest-anatomy|5_2023-12-30T16-10-15.561942.parquet
        • **/details_harness|hendrycksTest-astronomy|5_2023-12-30T16-10-15.561942.parquet
        • **/details_harness|hendrycksTest-business_ethics|5_2023-12-30T16-10-15.561942.parquet
        • **/details_harness|hendrycksTest-clinical_knowledge|5_2023-12-30T16-10-15.561942.parquet
        • **/details_harness|hendrycksTest-college_biology|5_2023-12-30T16-10-15.561942.parquet
        • **/details_harness|hendrycksTest-college_chemistry|5_2023-12-30T16-10-15.561942.parquet
        • **/details_harness|hendrycksTest-college_computer_science|5_2023-12-30T16-10-15.561942.parquet
        • **/details_harness|hendrycksTest-college_mathematics|5_2023-12-30T16-10-15.561942.parquet
        • **/details_harness|hendrycksTest-college_medicine|5_2023-12-30T16-10-15.561942.parquet
        • **/details_harness|hendrycksTest-college_physics|5_2023-12-30T16-10-15.561942.parquet
        • **/details_harness|hendrycksTest-computer_security|5_2023-12-30T16-10-15.561942.parquet
        • **/details_harness|hendrycksTest-conceptual_physics|5_2023-12-30T16-10-15.561942.parquet
        • **/details_harness|hendrycksTest-econometrics|5_2023-12-30T16-10-15.561942.parquet
        • **/details_harness|hendrycksTest-electrical_engineering|5_2023-12-30T16-10-15.561942.parquet
        • **/details_harness|hendrycksTest-elementary_mathematics|5_2023-12-30T16-10-15.561942.parquet
        • **/details_harness|hendrycksTest-formal_logic|5_2023-12-30T16-10-15.561942.parquet
        • **/details_harness|hendrycksTest-global_facts|5_2023-12-30T16-10-15.561942.parquet
        • **/details_harness|hendrycksTest-high_school_biology|5_2023-12-30T16-10-15.561942.parquet

        其他路径省略...

}

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集是Open LLM Leaderboard在对DopeorNope/SOLARC-MOE-10.7Bx6模型进行自动化评估过程中生成的副产品。数据集由63个配置组成,每一个配置对应一个特定的评估任务。这些任务涵盖了从常识推理到数学问题求解的广泛领域,如ARC-Challenge、HellaSwag、GSM8K以及涵盖57个学科的MMLU基准测试。评估过程运行了一次,每次运行的结果被存储为独立的split,split的名称以时间戳标记,而'train' split则始终指向最新一次的评估结果。此外,一个名为'results'的额外配置汇总了所有任务的聚合指标,用于在Leaderboard上计算和展示模型的整体表现。
特点
该数据集的核心特点在于其结构化的评估记录方式。每个任务配置下的数据以Parquet格式存储,便于高效读取。数据集不仅提供了每个任务在各项指标上的原始得分和标准误差,还通过'results'配置提供了所有任务的聚合性能,使得研究者能够一目了然地评估模型在多种基准上的综合能力。时间戳split的设计允许追踪模型在不同时间点的表现,而'train' split始终指向最新结果,确保了数据集的时效性。这种精细化的组织方式为深入分析模型在特定任务上的优势和不足提供了宝贵资源。
使用方法
使用者可通过HuggingFace的datasets库方便地加载该数据集。例如,加载Winogrande任务的详细评估数据,只需调用`load_dataset`函数,指定数据集名称和对应的配置名(如'harness_winogrande_5'),并选择所需的split(如'train'或具体的时间戳split)。加载后的数据可直接用于复现Leaderboard上的评估结果,或进行更细致的性能分析。对于希望获取所有任务聚合结果的用户,可以直接加载'results'配置,从中提取模型在各个基准上的综合得分,从而快速评估模型的整体水平。
背景与挑战
背景概述
在大型语言模型(LLM)蓬勃发展的浪潮中,如何系统、公平地评估模型性能成为推动技术演进的关键基石。该数据集诞生于2023年末,由HuggingFace团队(主要联系人Clémentine Fourrier)依托其开创性的Open LLM Leaderboard平台创建,旨在为混合专家模型(MoE)DopeorNope/SOLARC-MOE-10.7Bx6提供标准化测评记录。核心研究问题聚焦于多维度能力量化,涵盖常识推理(如ARC-Challenge、HellaSwag)、数学推理(GSM8K)、知识理解(MMLU的57个学科子集)及对抗性真实性(TruthfulQA)等关键领域。该数据集通过自动化流程将模型在63个任务配置上的表现结构化存储,为社区提供了可复现的评估基准,其影响力体现在推动MoE架构透明化比较以及促进开源模型性能追踪的规范化。
当前挑战
当前面临的核心挑战集中于领域评估的深度与广度平衡。一方面,MMLU等测试集虽覆盖广泛学科,但各子任务样本量有限(如每科仅5-shot),导致统计显著性受限,模型在抽象代数、大学数学等科目上的低分(约0.32-0.42)揭示了知识泛化能力的薄弱环节;另一方面,构建过程中存在评估框架版本依赖与结果一致性难题,数据集需持续适配harness工具链的迭代,确保不同时间戳运行结果的可比性。此外,MoE模型的稀疏激活特性使得评测结果对采样策略敏感,现有单次运行记录可能无法充分反映性能波动,而Leaderboard仅保留最新结果的设计,使得历史对比与退化检测面临数据碎片化的挑战。
常用场景
经典使用场景
该数据集源自Open LLM Leaderboard对DopeorNope/SOLARC-MOE-10.7Bx6模型的评估过程,涵盖了63个评估任务的详细配置与结果。其经典使用场景在于为大规模语言模型的性能对比提供标准化基准,研究人员可通过加载特定任务配置(如ARC-Challenge、HellaSwag、MMLU等)的细粒度评分数据,深入剖析模型在常识推理、科学知识、数学计算及伦理判断等维度的表现。这种结构化的评估框架使得跨模型、跨任务的横向比较成为可能,尤其适用于验证混合专家模型(MoE)架构在多样化挑战下的泛化能力与鲁棒性。
衍生相关工作
该数据集衍生了一系列关于MoE模型评估与优化的开创性工作。基于其公开的评估日志,研究者得以深入分析混合专家路由机制在不同难度任务上的行为模式,进而提出动态专家分配策略以提升推理效率。同时,该数据集常被用作多模态模型或持续学习场景的基线对照资源,其细粒度的任务拆分方法启发了后续如‘任务级鲁棒性分析’和‘跨领域迁移能力图谱’等研究方向。这些工作共同丰富了开源大模型评估的理论与实践体系。
数据集最近研究
最新研究方向
当前,混合专家模型(MoE)架构在大语言模型领域掀起了一股研究热潮,其通过稀疏激活机制在保持高性能的同时显著降低推理成本,成为平衡模型规模与效率的关键路径。SOLARC-MOE-10.7Bx6作为一款基于MoE架构的模型,其性能评估数据在Open LLM Leaderboard上的公开,为探究MoE模型在多任务泛化能力上的潜力提供了宝贵实证。该数据集记录了模型在ARC挑战赛、HellaSwag常识推理、GSM8K数学问题以及涵盖57个学科的MMLU基准等多样化任务上的详尽表现,揭示了MoE架构在知识密集与推理密集型场景下的独特优势。特别是在HellaSwag上达到88.4%的归一化准确率,以及在高中美国政府与政治科目中取得90.2%的高分,凸显了MoE模型在捕捉复杂语义与领域特定知识方面的卓越能力。这一研究方向不仅推动了高效大模型的落地应用,也为未来稀疏化、模块化模型的设计与优化提供了基准参照,对构建更绿色、更智能的人工智能系统具有深远意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作