five

open-llm-leaderboard/details_NousResearch__Nous-Puffin-70B

收藏
Hugging Face2023-09-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/open-llm-leaderboard/details_NousResearch__Nous-Puffin-70B
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是在评估模型NousResearch/Nous-Puffin-70B在Open LLM Leaderboard上的表现时自动生成的。数据集由64个配置组成,每个配置对应一个被评估的任务。数据集由2次运行生成,每次运行在每个配置中表示为特定的分割。train分割始终指向最新的结果。此外,名为results的配置存储了所有运行的聚合结果,用于计算和显示Open LLM Leaderboard上的聚合指标。README还提供了如何使用Python代码加载运行细节的示例,并包含了特定运行的最新结果。
提供机构:
open-llm-leaderboard
原始信息汇总

数据集概述

数据集简介

该数据集是在评估模型 NousResearch/Nous-Puffin-70BOpen LLM Leaderboard 上的自动创建的。数据集包含64个配置,每个配置对应一个评估任务。

数据集结构

数据集由2次运行创建,每次运行可以在每个配置中找到特定的分割,分割名称使用运行的时间戳。"train" 分割始终指向最新的结果。

额外配置

一个额外的配置 "results" 存储所有运行的聚合结果,用于计算和显示 Open LLM Leaderboard 上的聚合指标。

数据加载示例

python from datasets import load_dataset data = load_dataset("open-llm-leaderboard/details_NousResearch__Nous-Puffin-70B", "harness_winogrande_5", split="train")

最新结果

以下是 2023-09-23T17:19:58.299008 运行的最新结果: python { "all": { "em": 0.0019924496644295304, "em_stderr": 0.00045666764626670005, "f1": 0.06601090604026844, "f1_stderr": 0.001371965767363261, "acc": 0.5908367954724018, "acc_stderr": 0.011701371531806812 }, "harness|drop|3": { "em": 0.0019924496644295304, "em_stderr": 0.00045666764626670005, "f1": 0.06601090604026844, "f1_stderr": 0.001371965767363261 }, "harness|gsm8k|5": { "acc": 0.34268385140257773, "acc_stderr": 0.01307303023082791 }, "harness|winogrande|5": { "acc": 0.8389897395422258, "acc_stderr": 0.010329712832785715 } }

配置详情

以下是数据集的配置详情:

  • config_name: harness_arc_challenge_25

    • data_files:
      • split: 2023_08_24T17_45_27.892102
        • path: **/details_harness|arc:challenge|25_2023-08-24T17:45:27.892102.parquet
      • split: latest
        • path: **/details_harness|arc:challenge|25_2023-08-24T17:45:27.892102.parquet
  • config_name: harness_drop_3

    • data_files:
      • split: 2023_09_23T17_19_58.299008
        • path: **/details_harness|drop|3_2023-09-23T17-19-58.299008.parquet
      • split: latest
        • path: **/details_harness|drop|3_2023-09-23T17-19-58.299008.parquet
  • config_name: harness_gsm8k_5

    • data_files:
      • split: 2023_09_23T17_19_58.299008
        • path: **/details_harness|gsm8k|5_2023-09-23T17-19-58.299008.parquet
      • split: latest
        • path: **/details_harness|gsm8k|5_2023-09-23T17-19-58.299008.parquet
  • config_name: harness_hellaswag_10

    • data_files:
      • split: 2023_08_24T17_45_27.892102
        • path: **/details_harness|hellaswag|10_2023-08-24T17:45:27.892102.parquet
      • split: latest
        • path: **/details_harness|hellaswag|10_2023-08-24T17:45:27.892102.parquet
  • config_name: harness_hendrycksTest_5

    • data_files:
      • split: 2023_08_24T17_45_27.892102
        • path:
          • **/details_harness|hendrycksTest-abstract_algebra|5_2023-08-24T17:45:27.892102.parquet
          • **/details_harness|hendrycksTest-anatomy|5_2023-08-24T17:45:27.892102.parquet
          • **/details_harness|hendrycksTest-astronomy|5_2023-08-24T17:45:27.892102.parquet
          • **/details_harness|hendrycksTest-business_ethics|5_2023-08-24T17:45:27.892102.parquet
          • **/details_harness|hendrycksTest-clinical_knowledge|5_2023-08-24T17:45:27.892102.parquet
          • **/details_harness|hendrycksTest-college_biology|5_2023-08-24T17:45:27.892102.parquet
          • **/details_harness|hendrycksTest-college_chemistry|5_2023-08-24T17:45:27.892102.parquet
          • **/details_harness|hendrycksTest-college_computer_science|5_2023-08-24T17:45:27.892102.parquet
          • **/details_harness|hendrycksTest-college_mathematics|5_2023-08-24T17:45:27.892102.parquet
          • **/details_harness|hendrycksTest-college_medicine|5_2023-08-24T17:45:27.892102.parquet
          • **/details_harness|hendrycksTest-college_physics|5_2023-08-24T17:45:27.892102.parquet
          • **/details_harness|hendrycksTest-computer_security|5_2023-08-24T17:45:27.892102.parquet
          • **/details_harness|hendrycksTest-conceptual_physics|5_2023-08-24T17:45:27.892102.parquet
          • **/details_harness|hendrycksTest-econometrics|5_2023-08-24T17:45:27.892102.parquet
          • **/details_harness|hendrycksTest-electrical_engineering|5_2023-08-24T17:45:27.892102.parquet
          • **/details_harness|hendrycksTest-elementary_mathematics|5_2023-08-24T17:45:27.892102.parquet
          • **/details_harness|hendrycksTest-formal_logic|5_2023-08-24T17:45:27.892102.parquet
          • **/details_harness|hendrycksTest-global_facts|5_2023-08-24T17:45:27.892102.parquet
          • **/details_harness|hendrycksTest-high_school_biology|5_2023-08-24T17:45:27.892102.parquet
          • **/details_harness|hendrycksTest-high_school_chemistry|5_2023-08-24T17:45:27.892102.parquet
          • **/details_harness|hendrycksTest-high_school_computer_science|5_2023-08-24T17:45:27.892102.parquet
          • **/details_harness|hendrycksTest-high_school_european_history|5_2023-08-24T17:45:27.892102.parquet
          • **/details_harness|hendrycksTest-high_school_geography|5_2023-08-24T17:45:27.892102.parquet
          • **/details_harness|hendrycksTest-high_school_government_and_politics|5_2023-08-24T17:45:27.892102.parquet
          • **/details_harness|hendrycksTest-high_school_macroeconomics|5_2023-08-24T17:45:27.892102.parquet
          • **/details_harness|hendrycksTest-high_school_mathematics|5_2023-08-24T17:45:27.892102.parquet
          • **/details_harness|hendrycksTest-high_school_microeconomics|5_2023-08-24T17:45:27.892102.parquet
          • **/details_harness|hendrycksTest-high_school_physics|5_2023-08-24T17:45:27.892102.parquet
          • **/details_harness|hendrycksTest-high_school_psychology|5_2023-08-24T17:45:27.892102.parquet
          • **/details_harness|hendrycksTest-high_school_statistics|5_2023-08-24T17:45:27.892102.parquet
          • **/details_harness|hendrycksTest-high_school_us_history|5_2023-08-24T17:45:27.892102.parquet
          • **/details_harness|hendrycksTest-high_school_world_history|5_2023-08-24T17:45:27.892102.parquet
          • **/details_harness|hendrycksTest-human_aging|5_2023-08-24T17:45:27.892102.parquet
          • **/details_harness|hendrycksTest-human_sexuality|5_2023-08-24T17:45:27.892102.parquet
          • **/details_harness|hendrycksTest-international_law|5_2023-08-24T17:45:27.892102.parquet
          • **/details_harness|hendrycksTest-jurisprudence|5_2023-08-24T17:45:27.892102.parquet
          • **/details_harness|hendrycksTest-logical_fallacies|5_2023-08-24T17:45:27.892102.parquet
          • **/details_harness|hendrycksTest-machine_learning|5_2023-08-24T17:45:27.892102.parquet
          • **/details_harness|hendrycksTest-management|5_2023-08-24T17:45:27.892102.parquet
          • **/details_harness|hendrycksTest-marketing|5_2023-08-24T17:45:27.892102.parquet
          • **/details_harness|hendrycksTest-medical_genetics|5_2023-08-24T17:45:27.892102.parquet
          • **/details_harness|hendrycksTest-miscellaneous|5_2023-08-24T17:45:27.892102.parquet
          • **/details_harness|hendrycksTest-moral_disputes|5_2023-08-24T17:45:27.892102.parquet
          • **/details_harness|hendrycksTest-moral_scenarios|5_2023-08-24T17:45:27.892102.parquet
          • **/details_harness|hendrycksTest-nutrition|5_2023-08-24T17:45:27.892102.parquet
          • **/details_harness|hendrycksTest-philosophy|5_2023-08-24T17:45:27.892102.parquet
          • **/details_harness|hendrycksTest-prehistory|5_2023-08-24T17:45:27.892102.parquet
          • **/details_harness|hendrycksTest-professional_accounting|5_2023-08-24T17:45:27.892102.parquet
          • **/details
搜集汇总
数据集介绍
main_image_url
构建方式
在大型语言模型评估领域,Open LLM Leaderboard为模型性能的量化分析提供了标准化平台。该数据集系针对NousResearch/Nous-Puffin-70B模型在排行榜上进行自动化评估时自动生成,完整记录了模型在64个不同评测任务中的表现。数据集构建过程涵盖两次独立运行,每次运行的结果以时间戳为标识作为独立分割存储于各配置中,而'train'分割始终指向最新一次运行结果。此外,额外配置'results'汇集了所有运行的聚合指标,用于在排行榜上计算与展示综合性能。
特点
该数据集的核心特色在于其精细的结构化设计,涵盖了从ARC挑战、DROP、GSM8K到Winogrande等多样化的评测任务,每个任务均对应独立的配置项。数据以Parquet格式存储,保证了高效读取与处理能力。特别值得关注的是,数据集通过时间戳分割实现了对多次评估结果的追溯,使研究者能够纵向追踪模型性能的演变。同时,'latest'分割的设定确保了用户总能获取最新评估数据,而'results'配置则提供了宏观的聚合视角,便于进行跨任务的综合比较。
使用方法
研究者可通过HuggingFace的datasets库便捷地加载该数据集。具体而言,使用load_dataset函数并指定数据集名称,再选择目标任务的配置名称(如'harness_winogrande_5')以及所需的分割(如'train'或时间戳标识的具体运行),即可获取详细评估结果。对于需要分析整体性能的场景,可直接加载'results'配置以获取聚合指标。这一灵活的加载机制使得研究者能够根据具体需求,在微观任务细节与宏观性能概览之间自由切换,从而深入剖析模型在不同维度的能力表现。
背景与挑战
背景概述
在大规模语言模型(LLM)能力评估领域,Open LLM Leaderboard 由 Hugging Face 团队于 2023 年构建,旨在为日益繁多的开源模型提供标准化、可复现的性能基准。该数据集记录了 NousResearch 团队开发的 Nous-Puffin-70B 模型在多个核心任务上的评测结果,涵盖常识推理(如 HellaSwag)、数学推理(GSM8K)、阅读理解(DROP)及多学科知识(MMLU)等维度。其核心研究问题在于量化 70B 参数级别模型在零样本或少样本设置下的泛化能力,并揭示不同训练策略对下游任务的影响。作为开源社区的重要参照,该数据集不仅推动了模型间的横向对比,更促进了评测流程的透明化与自动化,对 LLM 的迭代优化具有显著影响力。
当前挑战
该数据集所解决的领域挑战在于,LLM 的性能评估长期缺乏统一、动态的基准,导致模型间比较结果碎片化且难以复现。具体而言,构建过程面临多重困难:评测任务需覆盖从基础推理到专业知识的广泛范畴,以确保评估的全面性;同时,不同任务的最佳采样策略(如 few-shot 次数)差异显著,需人工调优以平衡结果的信度与效率。此外,评测结果的版本控制与时间戳管理构成技术挑战,因为模型权重更新频繁,需确保历史评测数据与最新结果的可追溯性。数据存储格式的兼容性也是一大难题,需将异构任务输出统一为 Parquet 格式,并维护多配置下的数据分片与聚合逻辑,以支撑实时排行榜的生成。
常用场景
经典使用场景
在大型语言模型评估领域,open-llm-leaderboard/details_NousResearch__Nous-Puffin-70B 数据集被广泛用于量化模型在多样化任务上的表现。该数据集涵盖了64个评测配置,包括ARC挑战赛、DROP、GSM8K、HellaSwag、WinoGrande以及涵盖57个学科的MMLU基准测试。研究者通过加载该数据集中的特定任务配置与时间戳对应的评估分片,能够精准复现模型在推理、常识理解、数学求解和阅读理解等维度的得分,从而为模型性能的横向对比提供标准化依据。其设计尤其适用于需要细粒度分析模型在单一任务或跨任务上鲁棒性的研究场景。
解决学术问题
该数据集的核心价值在于解决了大语言模型评估中普遍存在的不可复现性与指标碎片化问题。传统上,不同研究团队采用自定义的评估流程,导致结果难以直接比较。该数据集通过将HuggingFace Open LLM Leaderboard的评估结果结构化为统一格式,并保存每次运行的完整细节,使得学术界能够追溯特定模型在特定时间点的精确表现。这为探究模型能力边界、分析训练策略对下游任务的影响,以及验证模型改进的有效性提供了可靠的数据基础,推动了评估标准化的进程。
衍生相关工作
该数据集衍生了一系列关于模型评估方法论的研究工作。例如,基于其提供的细粒度任务结果,研究者提出了任务难度加权聚合方法,以更公平地比较不同模型;也有工作利用该数据集的时间戳分片,分析模型性能在多次评估间的波动性,从而设计更稳定的评测采样策略。此外,该数据集与Open LLM Leaderboard的紧密关联,催生了多个可视化分析工具,用于追踪顶尖模型在排行榜上的动态变化,进而揭示大规模预训练与指令微调的发展趋势。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作