five

open-llm-leaderboard/details_Undi95__Emerhyst-20B

收藏
Hugging Face2023-10-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/open-llm-leaderboard/details_Undi95__Emerhyst-20B
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是在评估模型Undi95/Emerhyst-20B期间自动创建的,用于Open LLM排行榜。数据集包含64个配置,每个配置对应一个评估任务。数据集由2次运行创建,每次运行都作为一个特定分割,以运行的时间戳命名。还有一个名为results的附加配置,用于存储所有运行结果的聚合,以便在排行榜上计算和显示聚合指标。

该数据集是在评估模型Undi95/Emerhyst-20B期间自动创建的,用于Open LLM排行榜。数据集包含64个配置,每个配置对应一个评估任务。数据集由2次运行创建,每次运行都作为一个特定分割,以运行的时间戳命名。还有一个名为results的附加配置,用于存储所有运行结果的聚合,以便在排行榜上计算和显示聚合指标。
提供机构:
open-llm-leaderboard
原始信息汇总

数据集概述

数据集来源

该数据集是在评估模型 Undi95/Emerhyst-20BOpen LLM Leaderboard 上的自动创建的。

数据集结构

数据集由64个配置组成,每个配置对应一个评估任务。数据集从2次运行中创建,每次运行可以在每个配置中找到特定的分割,分割名称使用运行的时间戳。"train" 分割始终指向最新的结果。

数据集加载

要加载特定运行的详细信息,可以使用以下代码: python from datasets import load_dataset data = load_dataset("open-llm-leaderboard/details_Undi95__Emerhyst-20B", "harness_winogrande_5", split="train")

最新结果

以下是 2023-10-26T23:55:45.308698 运行 的最新结果: python { "all": { "em": 0.13779362416107382, "em_stderr": 0.003529879074740249, "f1": 0.20561661073825346, "f1_stderr": 0.0036264688196139742, "acc": 0.42288260999908445, "acc_stderr": 0.009833377334647354 }, "harness|drop|3": { "em": 0.13779362416107382, "em_stderr": 0.003529879074740249, "f1": 0.20561661073825346, "f1_stderr": 0.0036264688196139742 }, "harness|gsm8k|5": { "acc": 0.08491281273692192, "acc_stderr": 0.007678212824450795 }, "harness|winogrande|5": { "acc": 0.760852407261247, "acc_stderr": 0.011988541844843914 } }

配置详情

以下是数据集的部分配置详情:

  • config_name: harness_arc_challenge_25

    • split: 2023_10_04T09_24_08.717468
      • path: **/details_harness|arc:challenge|25_2023-10-04T09-24-08.717468.parquet
    • split: latest
      • path: **/details_harness|arc:challenge|25_2023-10-04T09-24-08.717468.parquet
  • config_name: harness_drop_3

    • split: 2023_10_26T23_55_45.308698
      • path: **/details_harness|drop|3_2023-10-26T23-55-45.308698.parquet
    • split: latest
      • path: **/details_harness|drop|3_2023-10-26T23-55-45.308698.parquet
  • config_name: harness_gsm8k_5

    • split: 2023_10_26T23_55_45.308698
      • path: **/details_harness|gsm8k|5_2023-10-26T23-55-45.308698.parquet
    • split: latest
      • path: **/details_harness|gsm8k|5_2023-10-26T23-55-45.308698.parquet
  • config_name: harness_hellaswag_10

    • split: 2023_10_04T09_24_08.717468
      • path: **/details_harness|hellaswag|10_2023-10-04T09-24-08.717468.parquet
    • split: latest
      • path: **/details_harness|hellaswag|10_2023-10-04T09-24-08.717468.parquet
  • config_name: harness_hendrycksTest_5

    • split: 2023_10_04T09_24_08.717468
      • path:
        • **/details_harness|hendrycksTest-abstract_algebra|5_2023-10-04T09-24-08.717468.parquet
        • **/details_harness|hendrycksTest-anatomy|5_2023-10-04T09-24-08.717468.parquet
        • **/details_harness|hendrycksTest-astronomy|5_2023-10-04T09-24-08.717468.parquet
        • **/details_harness|hendrycksTest-business_ethics|5_2023-10-04T09-24-08.717468.parquet
        • **/details_harness|hendrycksTest-clinical_knowledge|5_2023-10-04T09-24-08.717468.parquet
        • **/details_harness|hendrycksTest-college_biology|5_2023-10-04T09-24-08.717468.parquet
        • **/details_harness|hendrycksTest-college_chemistry|5_2023-10-04T09-24-08.717468.parquet
        • **/details_harness|hendrycksTest-college_computer_science|5_2023-10-04T09-24-08.717468.parquet
        • **/details_harness|hendrycksTest-college_mathematics|5_2023-10-04T09-24-08.717468.parquet
        • **/details_harness|hendrycksTest-college_medicine|5_2023-10-04T09-24-08.717468.parquet
        • **/details_harness|hendrycksTest-college_physics|5_2023-10-04T09-24-08.717468.parquet
        • **/details_harness|hendrycksTest-computer_security|5_2023-10-04T09-24-08.717468.parquet
        • **/details_harness|hendrycksTest-conceptual_physics|5_2023-10-04T09-24-08.717468.parquet
        • **/details_harness|hendrycksTest-econometrics|5_2023-10-04T09-24-08.717468.parquet
        • **/details_harness|hendrycksTest-electrical_engineering|5_2023-10-04T09-24-08.717468.parquet
        • **/details_harness|hendrycksTest-elementary_mathematics|5_2023-10-04T09-24-08.717468.parquet
        • **/details_harness|hendrycksTest-formal_logic|5_2023-10-04T09-24-08.717468.parquet
        • **/details_harness|hendrycksTest-global_facts|5_2023-10-04T09-24-08.717468.parquet
        • **/details_harness|hendrycksTest-high_school_biology|5_2023-10-04T09-24-08.717468.parquet
        • **/details_harness|hendrycksTest-high_school_chemistry|5_2023-10-04T09-24-08.717468.parquet
        • **/details_harness|hendrycksTest-high_school_computer_science|5_2023-10-04T09-24-08.717468.parquet
        • **/details_harness|hendrycksTest-high_school_european_history|5_2023-10-04T09-24-08.717468.parquet
        • **/details_harness|hendrycksTest-high_school_geography|5_2023-10-04T09-24-08.717468.parquet
        • **/details_harness|hendrycksTest-high_school_government_and_politics|5_2023-10-04T09-24-08.717468.parquet
        • **/details_harness|hendrycksTest-high_school_macroeconomics|5_2023-10-04T09-24-08.717468.parquet
        • **/details_harness|hendrycksTest-high_school_mathematics|5_2023-10-04T09-24-08.717468.parquet
        • **/details_harness|hendrycksTest-high_school_microeconomics|5_2023-10-04T09-24-08.717468.parquet
        • **/details_harness|hendrycksTest-high_school_physics|5_2023-10-04T09-24-08.717468.parquet
        • **/details_harness|hendrycksTest-high_school_psychology|5_2023-10-04T09-24-08.717468.parquet
        • **/details_harness|hendrycksTest-high_school_statistics|5_2023-10-04T09-24-08.717468.parquet
        • **/details_harness|hendrycksTest-high_school_us_history|5_2023-10-04T09-24-08.717468.parquet
        • **/details_harness|hendrycksTest-high_school_world_history|5_2023-10-04T09-24-08.717468.parquet
        • **/details_harness|hendrycksTest-human_aging|5_2023-10-04T09-24-08.717468.parquet
        • **/details_harness|hendrycksTest-human_sexuality|5_2023-10-04T09-24-08.717468.parquet
        • **/details_harness|hendrycksTest-international_law|5_2023-10-04T09-24-08.717468.parquet
        • **/details_harness|hendrycksTest-jurisprudence|5_2023-10-04T09-24-08.717468.parquet
        • **/details_harness|hendrycksTest-logical_fallacies|5_2023-10-04T09-24-08.717468.parquet
        • **/details_harness|hendrycksTest-machine_learning|5_2023-10-04T09-24-08.717468.parquet
        • **/details_harness|hendrycksTest-management|5_2023-10-04T09-24-08.717468.parquet
        • **/details_harness|hendrycksTest-marketing|5_2023-10-04T09-24-08.717468.parquet
        • **/details_harness|hendrycksTest-medical_genetics|5_2023-10-04T09-24-08.717468.parquet
        • **/details_harness|hendrycksTest-miscellaneous|5_2023-10-04T09-24-08.717468.parquet
        • **/details_harness|hendrycksTest-moral_disputes|5_2023-10-04T09-24-08.717468.parquet
        • **/details_harness|hendrycksTest-moral_scenarios|5_2023-10-04T09-24-08.717468.parquet
        • **/details_harness|hendrycksTest-nutrition|5_2023-10-04T09-24-08.717468.parquet
        • **/details_harness|hendrycksTest-philosophy|5_2023-10-04T09-24-08.717468.parquet
        • **/details_harness|hendrycksTest-prehistory|5_2023-10-04T09-24-08.717468.parquet
        • **/details_harness|hendrycksTest-professional_accounting|5_2023-10-04T09-24-08.717468.parquet
        • **/details_harness|hendrycksTest-professional_law|5_2023-10-04T09-24-08.717468.parquet
        • **/details_harness|hendrycksTest-professional_medicine|5_2023-10-04T09-24-08.717468.parquet
        • **/details_harness|hendrycksTest-professional_
搜集汇总
数据集介绍
main_image_url
构建方式
在大型语言模型评测领域,为了系统性地追踪模型性能演变,该数据集应运而生。它是在对Undi95/Emerhyst-20B模型进行Open LLM Leaderboard评估时自动生成的。数据集构建过程基于多次评估运行,每次运行的结果被组织为独立的split,并以运行时间戳命名,而'train' split则始终指向最新一次评估的成果。整个数据集由64个配置构成,每个配置对应一项具体的评测任务,此外还设有专门的'results'配置来汇总所有运行的聚合指标,为排行榜的指标计算与展示提供数据支撑。
特点
该数据集最显著的特征在于其精细化的层次结构与版本追溯能力。通过将每次评估运行的结果存储为独立split,研究者能够轻松回溯模型在特定时间点的表现,从而实现对性能变化的动态观察。64个配置全面覆盖了从常识推理(如ARC、HellaSwag)到数学解题(GSM8K)再到多领域知识(MMLU)的多样化评测任务,为模型能力的多维度剖析提供了丰富素材。'results'配置的加入进一步提升了数据的实用性,它直接服务于Open LLM Leaderboard的聚合指标计算,使得模型间的横向对比变得直观而高效。
使用方法
使用该数据集时,研究者可借助HuggingFace的datasets库进行高效加载。通过指定具体配置名称(如'harness_winogrande_5')和所需的split(如'train'或时间戳命名的split),即可获取特定任务在特定评估轮次下的详细结果。例如,load_dataset函数配合相应参数能直接返回parquet格式的数据,其中包含了模型在各项指标上的原始得分与误差范围。这种设计使得无论是进行细粒度的任务分析,还是复现排行榜上的模型表现,都变得极为便捷,极大地促进了开源大模型评测工作的可复现性与透明度。
背景与挑战
背景概述
在大型语言模型(LLM)性能评估领域,标准化基准测试平台的构建已成为推动模型发展的关键基础设施。Open LLM Leaderboard由HuggingFace团队于2023年创建,旨在为社区提供统一、透明的模型评测框架。该数据集是专为模型Undi95/Emerhyst-20B生成的评估运行记录,由HuggingFace研究人员Clémentine Fourrier主导维护,其核心研究问题在于如何通过多任务、多维度指标(如精确匹配率、F1分数、准确率)系统性地量化LLM在推理、常识理解及数学求解等复杂任务上的综合能力。该数据集的发布不仅为Emerhyst-20B模型提供了可复现的评测基准,更通过公开64个细分任务配置与时间戳分片,为后续模型性能追踪与对比分析奠定了数据基础,对推动开源LLM的可信评估生态具有重要参考价值。
当前挑战
该数据集所面临的挑战首先体现在领域问题上:当前LLM评估常因任务单一、指标片面而难以反映模型真实泛化能力,而Open LLM Leaderboard需在有限基准任务(如ARC、GSM8K、Winogrande等)中平衡覆盖广度与评测深度,避免因任务偏好导致性能误判。构建过程中,数据集需应对多轮次运行结果的时间一致性维护难题——不同时间戳分片需在保持数据兼容性的同时清晰标识最新结果,且64个任务配置的parquet文件路径组织复杂,易引发版本混乱。此外,评估指标(如EM与F1)在DROP等生成式任务上的统计稳定性受样本量限制,标准误差的精确计算对模型间微小差异的区分构成了额外挑战。
常用场景
经典使用场景
在大型语言模型(LLM)性能评估的学术研究中,Open LLM Leaderboard上的评测数据集已成为不可或缺的标准化工具。该数据集专为评估Emerhyst-20B模型设计,涵盖64个任务配置,包括ARC挑战、DROP、GSM8K、HellaSwag及涵盖57个学科的MMLU基准测试。研究者通常利用该数据集进行多维度能力对比,通过加载特定任务的parquet文件,获取模型在常识推理、数学求解、阅读理解等领域的细粒度表现,从而系统性地衡量模型在多样化认知任务上的综合实力。
解决学术问题
该数据集有效解决了LLM评估中普遍存在的基准不统一与结果不可复现的学术困境。通过标准化评测框架,它使得不同模型在同一任务上的表现能够进行公平比较,避免了因评测环境差异导致的结论偏差。在学术层面,它为研究者提供了验证模型改进效果的可信依据,例如通过GSM8K的准确率(8.49%)与Winogrande的准确率(76.09%)等指标,可精准定位模型在逻辑推理与常识理解上的短板,推动针对性的算法优化与理论创新。
衍生相关工作
该数据集催生了一系列围绕模型能力边界与评测方法论的研究工作。基于其提供的多任务评测结果,研究者提出了针对Emerhyst-20B的混合专家架构优化策略,并衍生出面向低资源场景的模型压缩技术。此外,数据集中MMLU子任务的57个学科成绩,启发了跨领域知识迁移与持续学习等方向的研究,推动了将评测反馈融入模型训练流程的闭环方法论,为构建更稳健的通用语言模型奠定了实证基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作