five

open-llm-leaderboard-old/details_Panchovix__airoboros-33b-gpt4-1.2-SuperHOT-8k

收藏
Hugging Face2023-09-17 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/open-llm-leaderboard-old/details_Panchovix__airoboros-33b-gpt4-1.2-SuperHOT-8k
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是在模型Panchovix/airoboros-33b-gpt4-1.2-SuperHOT-8k在Open LLM Leaderboard上的评估运行期间自动创建的。它由64个配置组成,每个配置对应一个评估任务。数据集由2次运行创建,每次运行在每个配置中作为一个特定的分割找到。train分割始终指向最新的结果。一个额外的配置results存储了所有运行的聚合结果,用于计算和显示在Open LLM Leaderboard上的聚合指标。

该数据集是在模型Panchovix/airoboros-33b-gpt4-1.2-SuperHOT-8k在Open LLM Leaderboard上的评估运行期间自动创建的。它由64个配置组成,每个配置对应一个评估任务。数据集由2次运行创建,每次运行在每个配置中作为一个特定的分割找到。train分割始终指向最新的结果。一个额外的配置results存储了所有运行的聚合结果,用于计算和显示在Open LLM Leaderboard上的聚合指标。
提供机构:
open-llm-leaderboard-old
原始信息汇总

数据集概述

该数据集是在对模型 Panchovix/airoboros-33b-gpt4-1.2-SuperHOT-8k 进行评估运行期间自动创建的,评估结果展示在 Open LLM Leaderboard 上。

数据集组成

  • 数据集包含 64 个配置,每个配置对应一个评估任务。
  • 数据集由 2 次运行创建,每次运行可以在每个配置中找到特定的分割,分割名称使用运行的时间戳。
  • "train" 分割始终指向最新的结果。
  • 一个额外的配置 "results" 存储所有运行的聚合结果,用于计算和显示在 Open LLM Leaderboard 上的聚合指标。

数据加载示例

python from datasets import load_dataset data = load_dataset("open-llm-leaderboard/details_Panchovix__airoboros-33b-gpt4-1.2-SuperHOT-8k", "harness_winogrande_5", split="train")

最新结果

以下是 2023-09-17T16:57:27.002060 运行的最新结果

python { "all": { "em": 0.0026216442953020135, "em_stderr": 0.0005236685642965811, "f1": 0.005930159395973156, "f1_stderr": 0.0006950327104148204, "acc": 0.2521704814522494, "acc_stderr": 0.007025978032038446 }, "harness|drop|3": { "em": 0.0026216442953020135, "em_stderr": 0.0005236685642965811, "f1": 0.005930159395973156, "f1_stderr": 0.0006950327104148204 }, "harness|gsm8k|5": { "acc": 0.0, "acc_stderr": 0.0 }, "harness|winogrande|5": { "acc": 0.5043409629044988, "acc_stderr": 0.014051956064076892 } }

配置详情

  • harness_arc_challenge_25

    • 分割:2023_08_17T20_41_42.341199
    • 路径:**/details_harness|arc:challenge|25_2023-08-17T20:41:42.341199.parquet
    • 分割:latest
    • 路径:**/details_harness|arc:challenge|25_2023-08-17T20:41:42.341199.parquet
  • harness_drop_3

    • 分割:2023_09_17T16_57_27.002060
    • 路径:**/details_harness|drop|3_2023-09-17T16-57-27.002060.parquet
    • 分割:latest
    • 路径:**/details_harness|drop|3_2023-09-17T16-57-27.002060.parquet
  • harness_gsm8k_5

    • 分割:2023_09_17T16_57_27.002060
    • 路径:**/details_harness|gsm8k|5_2023-09-17T16-57-27.002060.parquet
    • 分割:latest
    • 路径:**/details_harness|gsm8k|5_2023-09-17T16-57-27.002060.parquet
  • harness_hellaswag_10

    • 分割:2023_08_17T20_41_42.341199
    • 路径:**/details_harness|hellaswag|10_2023-08-17T20:41:42.341199.parquet
    • 分割:latest
    • 路径:**/details_harness|hellaswag|10_2023-08-17T20:41:42.341199.parquet
  • harness_hendrycksTest_5

    • 分割:2023_08_17T20_41_42.341199
    • 路径:**/details_harness|hendrycksTest-abstract_algebra|5_2023-08-17T20:41:42.341199.parquet 等 50 个文件
    • 分割:latest
    • 路径:**/details_harness|hendrycksTest-abstract_algebra|5_2023-08-17T20:41:42.341199.parquet 等 50 个文件
  • harness_hendrycksTest_abstract_algebra_5

    • 分割:2023_08_17T20_41_42.341199
    • 路径:**/details_harness|hendrycksTest-abstract_algebra|5_2023-08-17T20:41:42.341199.parquet
    • 分割:latest
    • 路径:**/details_harness|hendrycksTest-abstract_algebra|5_2023-08-17T20:41:42.341199.parquet
  • harness_hendrycksTest_anatomy_5

    • 分割:2023_08_17T20_41_42.341199
    • 路径:**/details_harness|hendrycksTest-anatomy|5_2023-08-17T20:41:42.341199.parquet
    • 分割:latest
    • 路径:**/details_harness|hendrycksTest-anatomy|5_2023-08-17T20:41:42.341199.parquet
  • harness_hendrycksTest_astronomy_5

    • 分割:2023_08_17T20_41_42.341199
    • 路径:**/details_harness|hendrycksTest-astronomy|5_2023-08-17T20:41:42.341199.parquet
    • 分割:latest
    • 路径:**/details_harness|hendrycksTest-astronomy|5_2023-08-17T20:41:42.341199.parquet
  • harness_hendrycksTest_business_ethics_5

    • 分割:2023_08_17T20_41_42.341199
    • 路径:**/details_harness|hendrycksTest-business_ethics|5_2023-08-17T20:41:42.341199.parquet
    • 分割:latest
    • 路径:**/details_harness|hendrycksTest-business_ethics|5_2023-08-17T20:41:42.341199.parquet
  • harness_hendrycksTest_clinical_knowledge_5

    • 分割:2023_08_17T20_41_42.341199
    • 路径:**/details_harness|hendrycksTest-clinical_knowledge|5_2023-08-17T20:41:42.341199.parquet
    • 分割:latest
    • 路径:**/details_harness|hendrycksTest-clinical_knowledge|5_2023-08-17T20:41:42.341199.parquet
  • harness_hendrycksTest_college_biology_5

    • 分割:2023_08_17T20_41_42.341199
    • 路径:**/details_harness|hendrycksTest-college_biology|5_2023-08-17T20:41:42.341199.parquet
    • 分割:latest
    • 路径:**/details_harness|hendrycksTest-college_biology|5_2023-08-17T20:41:42.341199.parquet
  • harness_hendrycksTest_college_chemistry_5

    • 分割:2023_08_17T20_41_42.341199
    • 路径:**/details_harness|hendrycksTest-college_chemistry|5_2023-08-17T20:41:42.341199.parquet
    • 分割:latest
    • 路径:**/details_harness|hendrycksTest-college_chemistry|5_2023-08-17T20:41:42.341199.parquet
  • harness_hendrycksTest_college_computer_science_5

    • 分割:2023_08_17T20_41_42.341199
    • 路径:**/details_harness|hendrycksTest-college_computer_science|5_2023-08-17T20:41:42.341199.parquet
    • 分割:latest
    • 路径:**/details_harness|hendrycksTest-college_computer_science|5_2023-08-17T20:41:42.341199.parquet
  • harness_hendrycksTest_college_mathematics_5

    • 分割:2023_08_17T20_41_42.341199
    • 路径:**/details_harness|hendrycksTest-college_mathematics|5_2023-08-17T20:41:42.341199.parquet
    • 分割:latest
    • 路径:**/details_harness|hendrycksTest-college_mathematics|5_2023-08-17T20:41:42.341199.parquet
  • harness_hendrycksTest_college_medicine_5

    • 分割:2023_08_17T20_41_42.341199
    • 路径:**/details_harness|hendrycksTest-college_medicine|5_2023-08-17T20:41:42.341199.parquet
    • 分割:latest
    • 路径:**/details_harness|hendrycksTest-college_medicine|5_2023-08-17T20:41:42.341199.parquet
  • harness_hendrycksTest_college_physics_5

    • 分割:2023_08_17T20_41_42.341199
    • 路径:**/details_harness|hendrycksTest-college_physics|5_2023-08-17T20:41:42.341199.parquet
    • 分割:latest
    • 路径:**/details_harness|hendrycksTest-college_physics|5_2023-08-17T20:41:42.341199.parquet
  • harness_hendrycksTest_computer_security_5

    • 分割:2023_08_17T20_41_42.341199
    • 路径:**/details_harness|hendrycksTest-computer_security|5_2023-08-17T20:41:42.341199.parquet
    • 分割:latest
    • 路径:**/details_harness|hendrycksTest-computer_security|5_2023-08-17T20:41:42.341199.parquet
  • harness_hendrycksTest_conceptual_physics_5

    • 分割:2023_08_17T20_41_42.341199
    • 路径:**/details_harness|hendrycksTest-conceptual_physics|5_2023-08-17T20:41:42.341199.parquet
    • 分割:latest
    • 路径:**/details_harness|hendrycksTest-conceptual_physics|5_2023-08-17T20:41:42.341199.parquet
  • harness_hendrycksTest_econometrics_5

    • 分割:2023_08_17T20_41_42.341199
    • 路径:**/details_harness|hendrycksTest-econometrics|5_2023-08-17T20:41:42.341199.parquet
    • 分割:latest
    • 路径:**/details_harness|hendrycksTest-econometrics|5_2023-08-17T20:41:42.341199.parquet
  • harness_hendrycksTest_electrical_engineering_5

    • 分割:2023_08_17T20_41_42.341199
    • 路径:`**/details_harness|hendrycksTest-electrical_engineering|5_2023-08-17T20:41:42.341
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自对大语言模型Panchovix/airoboros-33b-gpt4-1.2-SuperHOT-8k在Open LLM Leaderboard平台上进行的自动化评估过程。数据集由64个配置构成,每个配置对应一项被评估的任务,例如ARC挑战、DROP、GSM8K、HellaSwag以及涵盖57个学科分支的HendrycksTest等。评估共执行了两次运行,每次运行的结果被分别存储为特定时间戳命名的数据分割,而'train'分割始终指向最新一次运行的结果。此外,数据集还包含一个名为'results'的额外配置,用于汇总所有运行的综合指标,这些聚合数据直接服务于排行榜上可视化指标的呈现与计算。
特点
此数据集的结构设计极具系统性与可追溯性。它通过为每项任务设立独立配置,实现了评估粒度的精细化管理,使得研究者能够深入剖析模型在特定领域(如医学、法学、物理学等)的表现差异。时间戳分割机制忠实记录了模型能力的演变轨迹,支持跨时间维度的纵向比较。'results'配置则提供了宏观视角下的综合性能概览,兼顾了微观分析与宏观评估的双重需求。数据集以Parquet格式高效存储,确保了大规模评估数据加载与处理的性能。
使用方法
使用者可通过Hugging Face的datasets库便捷加载该数据集。以加载Winogrande任务的评估详情为例,调用load_dataset函数并指定数据集名称、配置名称(如'harness_winogrande_5')及所需的分割(如'train')即可。每个配置下的数据文件均以Parquet格式存储,支持高效的列式访问与过滤操作。如需获取特定时间戳的评估结果,可直接引用对应的时间戳分割名称。这种设计使得研究者能够灵活地提取任意任务、任意时间点的细粒度评估数据,从而进行深入的模型行为分析与性能基准测试。
背景与挑战
背景概述
该数据集源于HuggingFace社区主导的Open LLM Leaderboard评测项目,由HuggingFace团队于2023年创建,主要联络人为clementine@hf.co。其核心研究问题在于系统性地评估大语言模型在多样化自然语言理解与推理任务上的表现,涵盖ARC挑战、HellaSwag、MMLU、GSM8K、DROP及Winogrande等基准。该数据集记录了Panchovix/airoboros-33b-gpt4-1.2-SuperHOT-8k模型在两次评测运行中的详细结果,为模型性能的横向对比与复现提供了标准化依据。作为开放评测体系的一部分,它推动了LLM评估的透明化与可重复性,对相关领域的影响力体现在为研究者提供了细粒度、多任务的性能剖析,促进了模型优化方向的明确。
当前挑战
该数据集所解决的领域挑战在于大语言模型评估的碎片化与不兼容性,Open LLM Leaderboard通过统一评测框架整合了多类任务,但构建过程中面临显著困难:其一,评测任务配置庞杂,数据集包含64个配置项,每个对应不同任务与采样参数(如few-shot数量),需确保数据格式与版本的严格一致性;其二,评测结果的时间敏感性,两次运行(2023年8月与9月)的拆分设计需精准管理,以区分历史与最新结果,避免版本混淆;其三,模型在GSM8K数学推理任务上准确率为零,暴露出当前模型在复杂逻辑推理中的根本性短板,凸显了评测基准对模型能力边界的揭示作用。
常用场景
经典使用场景
在大型语言模型(LLM)的评估与比较领域,该数据集作为Open LLM Leaderboard的评测结果存储库,为研究者提供了对模型Panchovix/airoboros-33b-gpt4-1.2-SuperHOT-8k在多项自然语言理解与生成任务上的细粒度性能分析。其经典使用场景在于,通过加载各任务配置下的详细评测数据(如ARC挑战、DROP、GSM8K、WinoGrande等),研究者能够复现模型在特定基准测试中的表现,并以此为依据进行模型间的横向对比与能力图谱构建。数据集以时间戳划分运行批次,并统一指向最新结果,这种设计确保了评测过程的透明性与可追溯性,成为LLM社区中衡量模型进步的重要参考依据。
解决学术问题
该数据集的核心贡献在于解决了大型语言模型评测过程中的标准化与可复现性问题。在学术研究中,不同模型在多样化的任务上表现各异,但缺乏统一、开放的细粒度结果记录方式常导致比较困难。本数据集通过结构化存储每个评测任务的准确率、精确匹配率及F1分数等指标,并附带标准误差,使得研究者能够基于同一套评测流水线(如Language Model Evaluation Harness)对模型进行公正评估。其意义在于,它推动建立了模型性能的公开基准,促进了LLM领域内关于能力边界、数据偏差与泛化能力的深入探讨,为后续模型改进提供了客观的量化基石。
衍生相关工作
该数据集作为Open LLM Leaderboard生态系统的一部分,衍生了一系列重要的后续工作。一方面,它启发了社区构建更全面的模型评估框架,如Hugging Face的LM Evaluation Harness工具链的广泛采用,以及针对长上下文模型(如SuperHOT变体)的专项评测流程。另一方面,基于该数据集的细粒度结果,研究者开展了关于模型规模、训练数据与任务表现之间关系的元分析,推动了如“模型能力缩放定律”的实证研究。此外,该数据集还促进了对抗性评测数据集(如WinoGrande的常识对抗样本)的改进,为提升LLM的鲁棒性提供了数据支撑。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作