open-llm-leaderboard/details_Lazycuber__L2-7b-Orca-WVG-Test

Name: open-llm-leaderboard/details_Lazycuber__L2-7b-Orca-WVG-Test
Creator: open-llm-leaderboard
Published: 2023-10-26 20:44:47
License: 暂无描述

Hugging Face2023-10-26 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/open-llm-leaderboard/details_Lazycuber__L2-7b-Orca-WVG-Test

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是在对模型Lazycuber/L2-7b-Orca-WVG-Test进行评估运行期间自动创建的。它包含了64个配置，每个配置对应一个评估任务。数据集由2次运行创建，每次运行都有特定的分割，分割名称使用运行的时间戳。此外，还有一个名为results的配置，存储了所有运行的聚合结果，用于计算并在Open LLM Leaderboard上显示聚合指标。

提供机构：

open-llm-leaderboard

原始信息汇总

数据集概述

数据集来源

该数据集是在评估模型 Lazycuber/L2-7b-Orca-WVG-Test 在 Open LLM Leaderboard 上的运行过程中自动创建的。

数据集组成

数据集由64个配置组成，每个配置对应一个评估任务。数据集从2次运行中创建，每次运行可以在每个配置中找到特定的分割，分割名称使用运行的时间戳。"train" 分割始终指向最新的结果。

结果配置

一个额外的配置 "results" 存储所有运行的聚合结果，用于计算和显示 Open LLM Leaderboard 上的聚合指标。

数据加载示例

以下是加载特定运行详细信息的示例代码： python from datasets import load_dataset data = load_dataset("open-llm-leaderboard/details_Lazycuber__L2-7b-Orca-WVG-Test", "harness_winogrande_5", split="train")

配置详情

以下是数据集的配置详情：

harness_arc_challenge_25
- 分割: 2023_10_10T15_39_37.735727
  - 路径: **/details_harness|arc:challenge|25_2023-10-10T15-39-37.735727.parquet
- 分割: latest
  - 路径: **/details_harness|arc:challenge|25_2023-10-10T15-39-37.735727.parquet
harness_drop_3
- 分割: 2023_10_26T20_44_34.027885
  - 路径: **/details_harness|drop|3_2023-10-26T20-44-34.027885.parquet
- 分割: latest
  - 路径: **/details_harness|drop|3_2023-10-26T20-44-34.027885.parquet
harness_gsm8k_5
- 分割: 2023_10_26T20_44_34.027885
  - 路径: **/details_harness|gsm8k|5_2023-10-26T20-44-34.027885.parquet
- 分割: latest
  - 路径: **/details_harness|gsm8k|5_2023-10-26T20-44-34.027885.parquet
harness_hellaswag_10
- 分割: 2023_10_10T15_39_37.735727
  - 路径: **/details_harness|hellaswag|10_2023-10-10T15-39-37.735727.parquet
- 分割: latest
  - 路径: **/details_harness|hellaswag|10_2023-10-10T15-39-37.735727.parquet
harness_hendrycksTest_5
- 分割: 2023_10_10T15_39_37.735727
  - 路径:
    - **/details_harness|hendrycksTest-abstract_algebra|5_2023-10-10T15-39-37.735727.parquet
    - **/details_harness|hendrycksTest-anatomy|5_2023-10-10T15-39-37.735727.parquet
    - **/details_harness|hendrycksTest-astronomy|5_2023-10-10T15-39-37.735727.parquet
    - **/details_harness|hendrycksTest-business_ethics|5_2023-10-10T15-39-37.735727.parquet
    - **/details_harness|hendrycksTest-clinical_knowledge|5_2023-10-10T15-39-37.735727.parquet
    - **/details_harness|hendrycksTest-college_biology|5_2023-10-10T15-39-37.735727.parquet
    - **/details_harness|hendrycksTest-college_chemistry|5_2023-10-10T15-39-37.735727.parquet
    - **/details_harness|hendrycksTest-college_computer_science|5_2023-10-10T15-39-37.735727.parquet
    - **/details_harness|hendrycksTest-college_mathematics|5_2023-10-10T15-39-37.735727.parquet
    - **/details_harness|hendrycksTest-college_medicine|5_2023-10-10T15-39-37.735727.parquet
    - **/details_harness|hendrycksTest-college_physics|5_2023-10-10T15-39-37.735727.parquet
    - **/details_harness|hendrycksTest-computer_security|5_2023-10-10T15-39-37.735727.parquet
    - **/details_harness|hendrycksTest-conceptual_physics|5_2023-10-10T15-39-37.735727.parquet
    - **/details_harness|hendrycksTest-econometrics|5_2023-10-10T15-39-37.735727.parquet
    - **/details_harness|hendrycksTest-electrical_engineering|5_2023-10-10T15-39-37.735727.parquet
    - **/details_harness|hendrycksTest-elementary_mathematics|5_2023-10-10T15-39-37.735727.parquet
    - **/details_harness|hendrycksTest-formal_logic|5_2023-10-10T15-39-37.735727.parquet
    - **/details_harness|hendrycksTest-global_facts|5_2023-10-10T15-39-37.735727.parquet
    - **/details_harness|hendrycksTest-high_school_biology|5_2023-10-10T15-39-37.735727.parquet
    - **/details_harness|hendrycksTest-high_school_chemistry|5_2023-10-10T15-39-37.735727.parquet
    - **/details_harness|hendrycksTest-high_school_computer_science|5_2023-10-10T15-39-37.735727.parquet
    - **/details_harness|hendrycksTest-high_school_european_history|5_2023-10-10T15-39-37.735727.parquet
    - **/details_harness|hendrycksTest-high_school_geography|5_2023-10-10T15-39-37.735727.parquet
    - **/details_harness|hendrycksTest-high_school_government_and_politics|5_2023-10-10T15-39-37.735727.parquet
    - **/details_harness|hendrycksTest-high_school_macroeconomics|5_2023-10-10T15-39-37.735727.parquet
    - **/details_harness|hendrycksTest-high_school_mathematics|5_2023-10-10T15-39-37.735727.parquet
    - **/details_harness|hendrycksTest-high_school_microeconomics|5_2023-10-10T15-39-37.735727.parquet
    - **/details_harness|hendrycksTest-high_school_physics|5_2023-10-10T15-39-37.735727.parquet
    - **/details_harness|hendrycksTest-high_school_psychology|5_2023-10-10T15-39-37.735727.parquet
    - **/details_harness|hendrycksTest-high_school_statistics|5_2023-10-10T15-39-37.735727.parquet
    - **/details_harness|hendrycksTest-high_school_us_history|5_2023-10-10T15-39-37.735727.parquet
    - **/details_harness|hendrycksTest-high_school_world_history|5_2023-10-10T15-39-37.735727.parquet
    - **/details_harness|hendrycksTest-human_aging|5_2023-10-10T15-39-37.735727.parquet
    - **/details_harness|hendrycksTest-human_sexuality|5_2023-10-10T15-39-37.735727.parquet
    - **/details_harness|hendrycksTest-international_law|5_2023-10-10T15-39-37.735727.parquet
    - **/details_harness|hendrycksTest-jurisprudence|5_2023-10-10T15-39-37.735727.parquet
    - **/details_harness|hendrycksTest-logical_fallacies|5_2023-10-10T15-39-37.735727.parquet
    - **/details_harness|hendrycksTest-machine_learning|5_2023-10-10T15-39-37.735727.parquet
    - **/details_harness|hendrycksTest-management|5_2023-10-10T15-39-37.735727.parquet
    - **/details_harness|hendrycksTest-marketing|5_2023-10-10T15-39-37.735727.parquet
    - **/details_harness|hendrycksTest-medical_genetics|5_2023-10-10T15-39-37.735727.parquet
    - **/details_harness|hendrycksTest-miscellaneous|5_2023-10-10T15-39-37.735727.parquet
    - **/details_harness|hendrycksTest-moral_disputes|5_2023-10-10T15-39-37.735727.parquet
    - **/details_harness|hendrycksTest-moral_scenarios|5_2023-10-10T15-39-37.735727.parquet
    - **/details_harness|hendrycksTest-nutrition|5_2023-10-10T15-39-37.735727.parquet
    - **/details_harness|hendrycksTest-philosophy|5_2023-10-10T15-39-37.735727.parquet
    - **/details_harness|hendrycksTest-prehistory|5_2023-10-10T15-39-37.735727.parquet
    - **/details_harness|hendrycksTest-professional_accounting|5_2023-10-10T15-39-37.735727.parquet
    - `**/details_harness|hendrycksTest-professional_law|5_2

搜集汇总

数据集介绍

构建方式

在大规模语言模型评估领域，Open LLM Leaderboard 为模型性能的标准化评测提供了重要平台。该数据集是模型 Lazycuber/L2-7b-Orca-WVG-Test 在 Open LLM Leaderboard 上评估过程中自动生成的产物，其构建过程紧密围绕评估任务展开。数据集共包含 64 个配置，每个配置对应一项被评估的具体任务，如 ARC-Challenge、DROP、GSM8K 等。数据源自两次独立的评估运行，每次运行的结果以时间戳命名，作为特定分割存储在相应配置中，而 'train' 分割则始终指向最新一次运行的结果。此外，一个名为 'results' 的额外配置汇总了所有运行的聚合指标，用于计算和展示 Leaderboard 上的综合得分。所有数据均以 Parquet 格式存储，确保了高效的数据存取与处理。

使用方法

使用该数据集时，研究者可通过 Hugging Face 的 datasets 库便捷地加载特定任务的评估细节。例如，通过指定配置名称 'harness_winogrande_5' 并选择 'train' 分割，即可获取 Winogrande 任务的最新评估数据。加载后的数据以 Parquet 格式呈现，可直接用于分析模型在各子任务上的表现。对于需要历史数据的场景，可选择对应时间戳的分割，如 '2023_10_26T20_44_34.027885'，以回溯特定运行的结果。此外，'results' 配置提供了所有任务的聚合指标，便于快速评估模型的综合性能。这一加载方式使得研究者能够灵活地开展深入分析，如计算任务间的性能相关性或追踪模型能力的演变趋势。

背景与挑战

背景概述

该数据集源自Hugging Face社区发起的Open LLM Leaderboard评测框架，由Hugging Face团队（主要联系人为Clémentine）于2023年创建，旨在系统化评估大规模语言模型在多样化任务上的泛化能力。核心研究问题聚焦于如何通过标准化、可复现的评测流程，客观衡量如Lazycuber/L2-7b-Orca-WVG-Test这类7B参数级别模型的真实性能，涵盖从常识推理（如HellaSwag）、数学求解（GSM8K）到阅读理解（DROP）及多学科知识（MMLU）等维度。作为开源社区广泛引用的基准，该数据集不仅为模型开发者提供了横向对比的权威参考，更推动了语言模型评测从单一指标向多任务、多粒度评估范式的演进，对理解模型能力边界与优化方向具有深远影响。

当前挑战

当前面临的核心挑战首先在于领域问题的复杂性：语言模型在诸如GSM8K数学推理与DROP精确阅读理解等任务上表现显著分化，例如该模型在GSM8K上仅达8%的准确率，暴露出模型在符号计算与长文本语义锚定方面的深层短板。构建过程中则遭遇多重技术瓶颈：一是需要平衡57个MMLU子任务与ARC挑战集等异构数据的格式统一性，确保评测管道兼容不同任务模板；二是对多次运行结果的版本管理要求极高，需通过时间戳分片与动态latest分割技术来追踪模型迭代带来的性能波动，同时避免数据污染与过拟合风险；三是海量细粒度日志（如EM与F1分数）的自动化聚合与可视化，对存储架构与计算效率提出严峻考验。

常用场景

经典使用场景

该数据集作为Open LLM Leaderboard评估流程的产物，核心用途在于系统性地记录Lazycuber/L2-7b-Orca-WVG-Test模型在多种自然语言理解与推理基准上的细粒度表现。其涵盖的配置项横跨ARC挑战赛、DROP文本理解、GSM8K数学推理、HellaSwag常识推理以及涵盖57个学科的MMLU知识图谱等任务，为研究者提供了一个统一、可复现的评估框架，用以横向对比不同大语言模型在标准化测试环境中的能力边界。

解决学术问题

该数据集有效回应了当前大语言模型研究中评估标准碎片化与结果难以复现的痛点。通过将多个权威基准的评估结果聚合于同一结构下，它使得研究者能够精确量化模型在推理、知识检索与常识理解等维度的优劣，从而揭示不同训练策略（如指令微调、偏好对齐）对模型泛化能力的实际影响。这种系统化的评估范式为模型性能的归因分析奠定了数据基础。

实际应用

在实际应用中，该数据集可助力模型开发者快速诊断特定任务上的性能瓶颈，例如通过DROP任务的低F1分数定位文本理解缺陷，或依据GSM8K的准确率评估数学推理能力的不足。此外，企业或研究机构可借此数据集构建自动化模型评测流水线，持续追踪模型迭代过程中的性能变化，从而在模型部署前进行风险预判与质量把控。

数据集最近研究