five

open-llm-leaderboard/details_porkorbeef__Llama-2-13b-12_153950

收藏
Hugging Face2023-10-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/open-llm-leaderboard/details_porkorbeef__Llama-2-13b-12_153950
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是在评估模型porkorbeef/Llama-2-13b-12_153950时自动生成的,主要用于Open LLM Leaderboard的评估任务。数据集包含3个配置,每个配置对应一个评估任务,并且每个配置中有多个运行结果的分割。此外,还有一个名为results的配置,用于存储所有运行的聚合结果。数据集的最新评估结果显示在README中,并提供了如何加载数据集的具体代码示例。

This dataset was automatically generated during the evaluation of the model porkorbeef/Llama-2-13b-12_153950, and is primarily intended for evaluation tasks on the Open LLM Leaderboard. The dataset consists of 3 configurations, each corresponding to one evaluation task, with multiple run result splits under each configuration. Additionally, there is a configuration named `results` for storing aggregated results across all runs. The latest evaluation results of the dataset are presented in the README, along with specific code examples illustrating how to load the dataset.
提供机构:
open-llm-leaderboard
原始信息汇总

数据集卡片 for Evaluation run of porkorbeef/Llama-2-13b-12_153950

数据集描述

数据集摘要

该数据集是在模型 porkorbeef/Llama-2-13b-12_153950Open LLM Leaderboard 上的评估运行期间自动创建的。

数据集由3个配置组成,每个配置对应一个评估任务。

数据集从2次运行中创建。每次运行在每个配置中作为一个特定的分割存在,分割名称使用运行的时间戳。"train" 分割始终指向最新的结果。

一个额外的配置 "results" 存储了所有运行的聚合结果(用于计算并在 Open LLM Leaderboard 上显示聚合指标)。

最新结果

以下是来自2023-10-25T19:51:17.489031运行的最新结果:

python { "all": { "em": 0.0, "em_stderr": 0.0, "f1": 5.76761744966443e-05, "f1_stderr": 1.4707528558078046e-05, "acc": 0.26558800315706393, "acc_stderr": 0.007012571320319756 }, "harness|drop|3": { "em": 0.0, "em_stderr": 0.0, "f1": 5.76761744966443e-05, "f1_stderr": 1.4707528558078046e-05 }, "harness|gsm8k|5": { "acc": 0.0, "acc_stderr": 0.0 }, "harness|winogrande|5": { "acc": 0.5311760063141279, "acc_stderr": 0.014025142640639513 } }

数据集结构

配置

  • harness_drop_3

    • 分割: 2023_10_16T16_23_02.920553
      • 路径: **/details_harness|drop|3_2023-10-16T16-23-02.920553.parquet
    • 分割: 2023_10_25T19_51_17.489031
      • 路径: **/details_harness|drop|3_2023-10-25T19-51-17.489031.parquet
    • 分割: latest
      • 路径: **/details_harness|drop|3_2023-10-25T19-51-17.489031.parquet
  • harness_gsm8k_5

    • 分割: 2023_10_16T16_23_02.920553
      • 路径: **/details_harness|gsm8k|5_2023-10-16T16-23-02.920553.parquet
    • 分割: 2023_10_25T19_51_17.489031
      • 路径: **/details_harness|gsm8k|5_2023-10-25T19-51-17.489031.parquet
    • 分割: latest
      • 路径: **/details_harness|gsm8k|5_2023-10-25T19-51-17.489031.parquet
  • harness_winogrande_5

    • 分割: 2023_10_16T16_23_02.920553
      • 路径: **/details_harness|winogrande|5_2023-10-16T16-23-02.920553.parquet
    • 分割: 2023_10_25T19_51_17.489031
      • 路径: **/details_harness|winogrande|5_2023-10-25T19-51-17.489031.parquet
    • 分割: latest
      • 路径: **/details_harness|winogrande|5_2023-10-25T19-51-17.489031.parquet
  • results

    • 分割: 2023_10_16T16_23_02.920553
      • 路径: results_2023-10-16T16-23-02.920553.parquet
    • 分割: 2023_10_25T19_51_17.489031
      • 路径: results_2023-10-25T19-51-17.489031.parquet
    • 分割: latest
      • 路径: results_2023-10-25T19-51-17.489031.parquet
二维码
社区交流群
二维码
科研交流群
商业服务