open-llm-leaderboard/details_Undi95__Emerhyst-20B

Name: open-llm-leaderboard/details_Undi95__Emerhyst-20B
Creator: open-llm-leaderboard
Published: 2023-10-26 23:55:59
License: 暂无描述

Hugging Face2023-10-26 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/open-llm-leaderboard/details_Undi95__Emerhyst-20B

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是在评估模型Undi95/Emerhyst-20B期间自动创建的，用于Open LLM排行榜。数据集包含64个配置，每个配置对应一个评估任务。数据集由2次运行创建，每次运行都作为一个特定分割，以运行的时间戳命名。还有一个名为results的附加配置，用于存储所有运行结果的聚合，以便在排行榜上计算和显示聚合指标。

提供机构：

open-llm-leaderboard

原始信息汇总

数据集概述

数据集来源

该数据集是在评估模型 Undi95/Emerhyst-20B 在 Open LLM Leaderboard 上的自动创建的。

数据集结构

数据集由64个配置组成，每个配置对应一个评估任务。数据集从2次运行中创建，每次运行可以在每个配置中找到特定的分割，分割名称使用运行的时间戳。"train" 分割始终指向最新的结果。

数据集加载

要加载特定运行的详细信息，可以使用以下代码： python from datasets import load_dataset data = load_dataset("open-llm-leaderboard/details_Undi95__Emerhyst-20B", "harness_winogrande_5", split="train")

配置详情

以下是数据集的部分配置详情：

config_name: harness_arc_challenge_25
- split: 2023_10_04T09_24_08.717468
  - path: **/details_harness|arc:challenge|25_2023-10-04T09-24-08.717468.parquet
- split: latest
  - path: **/details_harness|arc:challenge|25_2023-10-04T09-24-08.717468.parquet
config_name: harness_drop_3
- split: 2023_10_26T23_55_45.308698
  - path: **/details_harness|drop|3_2023-10-26T23-55-45.308698.parquet
- split: latest
  - path: **/details_harness|drop|3_2023-10-26T23-55-45.308698.parquet
config_name: harness_gsm8k_5
- split: 2023_10_26T23_55_45.308698
  - path: **/details_harness|gsm8k|5_2023-10-26T23-55-45.308698.parquet
- split: latest
  - path: **/details_harness|gsm8k|5_2023-10-26T23-55-45.308698.parquet
config_name: harness_hellaswag_10
- split: 2023_10_04T09_24_08.717468
  - path: **/details_harness|hellaswag|10_2023-10-04T09-24-08.717468.parquet
- split: latest
  - path: **/details_harness|hellaswag|10_2023-10-04T09-24-08.717468.parquet
config_name: harness_hendrycksTest_5
- split: 2023_10_04T09_24_08.717468
  - path:
    - **/details_harness|hendrycksTest-abstract_algebra|5_2023-10-04T09-24-08.717468.parquet
    - **/details_harness|hendrycksTest-anatomy|5_2023-10-04T09-24-08.717468.parquet
    - **/details_harness|hendrycksTest-astronomy|5_2023-10-04T09-24-08.717468.parquet
    - **/details_harness|hendrycksTest-business_ethics|5_2023-10-04T09-24-08.717468.parquet
    - **/details_harness|hendrycksTest-clinical_knowledge|5_2023-10-04T09-24-08.717468.parquet
    - **/details_harness|hendrycksTest-college_biology|5_2023-10-04T09-24-08.717468.parquet
    - **/details_harness|hendrycksTest-college_chemistry|5_2023-10-04T09-24-08.717468.parquet
    - **/details_harness|hendrycksTest-college_computer_science|5_2023-10-04T09-24-08.717468.parquet
    - **/details_harness|hendrycksTest-college_mathematics|5_2023-10-04T09-24-08.717468.parquet
    - **/details_harness|hendrycksTest-college_medicine|5_2023-10-04T09-24-08.717468.parquet
    - **/details_harness|hendrycksTest-college_physics|5_2023-10-04T09-24-08.717468.parquet
    - **/details_harness|hendrycksTest-computer_security|5_2023-10-04T09-24-08.717468.parquet
    - **/details_harness|hendrycksTest-conceptual_physics|5_2023-10-04T09-24-08.717468.parquet
    - **/details_harness|hendrycksTest-econometrics|5_2023-10-04T09-24-08.717468.parquet
    - **/details_harness|hendrycksTest-electrical_engineering|5_2023-10-04T09-24-08.717468.parquet
    - **/details_harness|hendrycksTest-elementary_mathematics|5_2023-10-04T09-24-08.717468.parquet
    - **/details_harness|hendrycksTest-formal_logic|5_2023-10-04T09-24-08.717468.parquet
    - **/details_harness|hendrycksTest-global_facts|5_2023-10-04T09-24-08.717468.parquet
    - **/details_harness|hendrycksTest-high_school_biology|5_2023-10-04T09-24-08.717468.parquet
    - **/details_harness|hendrycksTest-high_school_chemistry|5_2023-10-04T09-24-08.717468.parquet
    - **/details_harness|hendrycksTest-high_school_computer_science|5_2023-10-04T09-24-08.717468.parquet
    - **/details_harness|hendrycksTest-high_school_european_history|5_2023-10-04T09-24-08.717468.parquet
    - **/details_harness|hendrycksTest-high_school_geography|5_2023-10-04T09-24-08.717468.parquet
    - **/details_harness|hendrycksTest-high_school_government_and_politics|5_2023-10-04T09-24-08.717468.parquet
    - **/details_harness|hendrycksTest-high_school_macroeconomics|5_2023-10-04T09-24-08.717468.parquet
    - **/details_harness|hendrycksTest-high_school_mathematics|5_2023-10-04T09-24-08.717468.parquet
    - **/details_harness|hendrycksTest-high_school_microeconomics|5_2023-10-04T09-24-08.717468.parquet
    - **/details_harness|hendrycksTest-high_school_physics|5_2023-10-04T09-24-08.717468.parquet
    - **/details_harness|hendrycksTest-high_school_psychology|5_2023-10-04T09-24-08.717468.parquet
    - **/details_harness|hendrycksTest-high_school_statistics|5_2023-10-04T09-24-08.717468.parquet
    - **/details_harness|hendrycksTest-high_school_us_history|5_2023-10-04T09-24-08.717468.parquet
    - **/details_harness|hendrycksTest-high_school_world_history|5_2023-10-04T09-24-08.717468.parquet
    - **/details_harness|hendrycksTest-human_aging|5_2023-10-04T09-24-08.717468.parquet
    - **/details_harness|hendrycksTest-human_sexuality|5_2023-10-04T09-24-08.717468.parquet
    - **/details_harness|hendrycksTest-international_law|5_2023-10-04T09-24-08.717468.parquet
    - **/details_harness|hendrycksTest-jurisprudence|5_2023-10-04T09-24-08.717468.parquet
    - **/details_harness|hendrycksTest-logical_fallacies|5_2023-10-04T09-24-08.717468.parquet
    - **/details_harness|hendrycksTest-machine_learning|5_2023-10-04T09-24-08.717468.parquet
    - **/details_harness|hendrycksTest-management|5_2023-10-04T09-24-08.717468.parquet
    - **/details_harness|hendrycksTest-marketing|5_2023-10-04T09-24-08.717468.parquet
    - **/details_harness|hendrycksTest-medical_genetics|5_2023-10-04T09-24-08.717468.parquet
    - **/details_harness|hendrycksTest-miscellaneous|5_2023-10-04T09-24-08.717468.parquet
    - **/details_harness|hendrycksTest-moral_disputes|5_2023-10-04T09-24-08.717468.parquet
    - **/details_harness|hendrycksTest-moral_scenarios|5_2023-10-04T09-24-08.717468.parquet
    - **/details_harness|hendrycksTest-nutrition|5_2023-10-04T09-24-08.717468.parquet
    - **/details_harness|hendrycksTest-philosophy|5_2023-10-04T09-24-08.717468.parquet
    - **/details_harness|hendrycksTest-prehistory|5_2023-10-04T09-24-08.717468.parquet
    - **/details_harness|hendrycksTest-professional_accounting|5_2023-10-04T09-24-08.717468.parquet
    - **/details_harness|hendrycksTest-professional_law|5_2023-10-04T09-24-08.717468.parquet
    - **/details_harness|hendrycksTest-professional_medicine|5_2023-10-04T09-24-08.717468.parquet
    - **/details_harness|hendrycksTest-professional_

搜集汇总

数据集介绍

构建方式

在大型语言模型评测领域，为了系统性地追踪模型性能演变，该数据集应运而生。它是在对Undi95/Emerhyst-20B模型进行Open LLM Leaderboard评估时自动生成的。数据集构建过程基于多次评估运行，每次运行的结果被组织为独立的split，并以运行时间戳命名，而'train' split则始终指向最新一次评估的成果。整个数据集由64个配置构成，每个配置对应一项具体的评测任务，此外还设有专门的'results'配置来汇总所有运行的聚合指标，为排行榜的指标计算与展示提供数据支撑。

特点

该数据集最显著的特征在于其精细化的层次结构与版本追溯能力。通过将每次评估运行的结果存储为独立split，研究者能够轻松回溯模型在特定时间点的表现，从而实现对性能变化的动态观察。64个配置全面覆盖了从常识推理（如ARC、HellaSwag）到数学解题（GSM8K）再到多领域知识（MMLU）的多样化评测任务，为模型能力的多维度剖析提供了丰富素材。'results'配置的加入进一步提升了数据的实用性，它直接服务于Open LLM Leaderboard的聚合指标计算，使得模型间的横向对比变得直观而高效。

使用方法

使用该数据集时，研究者可借助HuggingFace的datasets库进行高效加载。通过指定具体配置名称（如'harness_winogrande_5'）和所需的split（如'train'或时间戳命名的split），即可获取特定任务在特定评估轮次下的详细结果。例如，load_dataset函数配合相应参数能直接返回parquet格式的数据，其中包含了模型在各项指标上的原始得分与误差范围。这种设计使得无论是进行细粒度的任务分析，还是复现排行榜上的模型表现，都变得极为便捷，极大地促进了开源大模型评测工作的可复现性与透明度。

背景与挑战

背景概述

在大型语言模型（LLM）性能评估领域，标准化基准测试平台的构建已成为推动模型发展的关键基础设施。Open LLM Leaderboard由HuggingFace团队于2023年创建，旨在为社区提供统一、透明的模型评测框架。该数据集是专为模型Undi95/Emerhyst-20B生成的评估运行记录，由HuggingFace研究人员Clémentine Fourrier主导维护，其核心研究问题在于如何通过多任务、多维度指标（如精确匹配率、F1分数、准确率）系统性地量化LLM在推理、常识理解及数学求解等复杂任务上的综合能力。该数据集的发布不仅为Emerhyst-20B模型提供了可复现的评测基准，更通过公开64个细分任务配置与时间戳分片，为后续模型性能追踪与对比分析奠定了数据基础，对推动开源LLM的可信评估生态具有重要参考价值。

当前挑战

该数据集所面临的挑战首先体现在领域问题上：当前LLM评估常因任务单一、指标片面而难以反映模型真实泛化能力，而Open LLM Leaderboard需在有限基准任务（如ARC、GSM8K、Winogrande等）中平衡覆盖广度与评测深度，避免因任务偏好导致性能误判。构建过程中，数据集需应对多轮次运行结果的时间一致性维护难题——不同时间戳分片需在保持数据兼容性的同时清晰标识最新结果，且64个任务配置的parquet文件路径组织复杂，易引发版本混乱。此外，评估指标（如EM与F1）在DROP等生成式任务上的统计稳定性受样本量限制，标准误差的精确计算对模型间微小差异的区分构成了额外挑战。

常用场景

经典使用场景

在大型语言模型（LLM）性能评估的学术研究中，Open LLM Leaderboard上的评测数据集已成为不可或缺的标准化工具。该数据集专为评估Emerhyst-20B模型设计，涵盖64个任务配置，包括ARC挑战、DROP、GSM8K、HellaSwag及涵盖57个学科的MMLU基准测试。研究者通常利用该数据集进行多维度能力对比，通过加载特定任务的parquet文件，获取模型在常识推理、数学求解、阅读理解等领域的细粒度表现，从而系统性地衡量模型在多样化认知任务上的综合实力。

解决学术问题

该数据集有效解决了LLM评估中普遍存在的基准不统一与结果不可复现的学术困境。通过标准化评测框架，它使得不同模型在同一任务上的表现能够进行公平比较，避免了因评测环境差异导致的结论偏差。在学术层面，它为研究者提供了验证模型改进效果的可信依据，例如通过GSM8K的准确率（8.49%）与Winogrande的准确率（76.09%）等指标，可精准定位模型在逻辑推理与常识理解上的短板，推动针对性的算法优化与理论创新。

衍生相关工作

该数据集催生了一系列围绕模型能力边界与评测方法论的研究工作。基于其提供的多任务评测结果，研究者提出了针对Emerhyst-20B的混合专家架构优化策略，并衍生出面向低资源场景的模型压缩技术。此外，数据集中MMLU子任务的57个学科成绩，启发了跨领域知识迁移与持续学习等方向的研究，推动了将评测反馈融入模型训练流程的闭环方法论，为构建更稳健的通用语言模型奠定了实证基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集