open-llm-leaderboard-old/details_gaodrew__gaodrew-gorgonzola-13b

Name: open-llm-leaderboard-old/details_gaodrew__gaodrew-gorgonzola-13b
Creator: open-llm-leaderboard-old
Published: 2023-09-23 16:30:32
License: 暂无描述

Hugging Face2023-09-23 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/open-llm-leaderboard-old/details_gaodrew__gaodrew-gorgonzola-13b

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是在模型 gaodrew/gaodrew-gorgonzola-13b 在 Open LLM Leaderboard 上的评估运行期间自动创建的。数据集由 64 个配置组成，每个配置对应一个被评估的任务。数据集是从 3 次运行中创建的，每次运行在每个配置中表示为特定的分割，分割名称使用运行的时间戳。train 分割始终指向最新的结果。一个名为 results 的额外配置存储了所有运行的聚合结果，这些结果用于计算和显示 Open LLM Leaderboard 上的聚合指标。README 还提供了一个示例，展示了如何使用 Python 中的 datasets 库加载运行中的详细信息。

提供机构：

open-llm-leaderboard-old

原始信息汇总

数据集概述

数据集简介

该数据集是在评估模型 gaodrew/gaodrew-gorgonzola-13b 在 Open LLM Leaderboard 上的评估运行期间自动创建的。

数据集结构

数据集由 64 个配置组成，每个配置对应一个评估任务。
数据集从 3 次运行中创建。每个运行可以在每个配置中作为一个特定的分片找到，分片名称使用运行的时间戳。
"train" 分片总是指向最新的结果。
一个额外的配置 "results" 存储所有运行的聚合结果，用于计算和显示 Open LLM Leaderboard 上的聚合指标。

数据加载示例

python from datasets import load_dataset data = load_dataset("open-llm-leaderboard/details_gaodrew__gaodrew-gorgonzola-13b", "harness_winogrande_5", split="train")

配置详情

harness_arc_challenge_25
- 分片：2023_08_23T21_07_18.787653, latest
- 路径：**/details_harness|arc:challenge|25_2023-08-23T21:07:18.787653.parquet
harness_drop_3
- 分片：2023_09_21T04_07_38.110729, 2023_09_23T16_30_20.571069, latest
- 路径：**/details_harness|drop|3_2023-09-21T04-07-38.110729.parquet, **/details_harness|drop|3_2023-09-23T16-30-20.571069.parquet
harness_gsm8k_5
- 分片：2023_09_21T04_07_38.110729, 2023_09_23T16_30_20.571069, latest
- 路径：**/details_harness|gsm8k|5_2023-09-21T04-07-38.110729.parquet, **/details_harness|gsm8k|5_2023-09-23T16-30-20.571069.parquet
harness_hellaswag_10
- 分片：2023_08_23T21_07_18.787653, latest
- 路径：**/details_harness|hellaswag|10_2023-08-23T21:07:18.787653.parquet
harness_hendrycksTest_5
- 分片：2023_08_23T21_07_18.787653, latest
- 路径：多个路径，详见原文
harness_hendrycksTest_abstract_algebra_5
- 分片：2023_08_23T21_07_18.787653, latest
- 路径：**/details_harness|hendrycksTest-abstract_algebra|5_2023-08-23T21:07:18.787653.parquet
harness_hendrycksTest_anatomy_5
- 分片：2023_08_23T21_07_18.787653, latest
- 路径：**/details_harness|hendrycksTest-anatomy|5_2023-08-23T21:07:18.787653.parquet
harness_hendrycksTest_astronomy_5
- 分片：2023_08_23T21_07_18.787653, latest
- 路径：**/details_harness|hendrycksTest-astronomy|5_2023-08-23T21:07:18.787653.parquet
harness_hendrycksTest_business_ethics_5
- 分片：2023_08_23T21_07_18.787653, latest
- 路径：**/details_harness|hendrycksTest-business_ethics|5_2023-08-23T21:07:18.787653.parquet
harness_hendrycksTest_clinical_knowledge_5
- 分片：2023_08_23T21_07_18.787653, latest
- 路径：**/details_harness|hendrycksTest-clinical_knowledge|5_2023-08-23T21:07:18.787653.parquet
harness_hendrycksTest_college_biology_5
- 分片：2023_08_23T21_07_18.787653, latest
- 路径：**/details_harness|hendrycksTest-college_biology|5_2023-08-23T21:07:18.787653.parquet
harness_hendrycksTest_college_chemistry_5
- 分片：2023_08_23T21_07_18.787653, latest
- 路径：**/details_harness|hendrycksTest-college_chemistry|5_2023-08-23T21:07:18.787653.parquet
harness_hendrycksTest_college_computer_science_5
- 分片：2023_08_23T21_07_18.787653, latest
- 路径：**/details_harness|hendrycksTest-college_computer_science|5_2023-08-23T21:07:18.787653.parquet
harness_hendrycksTest_college_mathematics_5
- 分片：2023_08_23T21_07_18.787653, latest
- 路径：**/details_harness|hendrycksTest-college_mathematics|5_2023-08-23T21:07:18.787653.parquet
harness_hendrycksTest_college_medicine_5
- 分片：2023_08_23T21_07_18.787653, latest
- 路径：**/details_harness|hendrycksTest-college_medicine|5_2023-08-23T21:07:18.787653.parquet
harness_hendrycksTest_college_physics_5
- 分片：2023_08_23T21_07_18.787653, latest
- 路径：**/details_harness|hendrycksTest-college_physics|5_2023-08-23T21:07:18.787653.parquet
harness_hendrycksTest_computer_security_5
- 分片：2023_08_23T21_07_18.787653, latest
- 路径：**/details_harness|hendrycksTest-computer_security|5_2023-08-23T21:07:18.787653.parquet
harness_hendrycksTest_conceptual_physics_5
- 分片：2023_08_23T21_07_18.787653, latest
- 路径：**/details_harness|hendrycksTest-conceptual_physics|5_2023-08-23T21:07:18.787653.parquet
harness_hendrycksTest_econometrics_5
- 分片：2023_08_23T21_07_18.787653, latest
- 路径：**/details_harness|hendrycksTest-econometrics|5_2023-08-23T21:07:18.787653.parquet
harness_hendrycksTest_electrical_engineering_5
- 分片：2023_08_23T21_07_18.787653, latest
- 路径：**/details_harness|hendrycksTest-electrical_engineering|5_2023-08-23T21:07:18.787653.parquet

以上是数据集的详细概述，包括数据集的简介、结构、加载示例、最新结果以及各个配置的详细信息。

搜集汇总

数据集介绍

构建方式

在大型语言模型评估领域，Open LLM Leaderboard 已成为衡量模型性能的重要基准。该数据集是在对模型 gaodrew/gaodrew-gorgonzola-13b 进行评测的过程中自动生成的，由 64 个配置组成，每个配置对应一项评测任务。数据集来源于三次独立的运行，每次运行的评测结果被存储为对应配置下的特定分割，分割名称以运行的时间戳命名，而 "train" 分割始终指向最新一次运行的结果。此外，一个名为 "results" 的额外配置汇总了所有运行的聚合指标，用于在 Leaderboard 上展示。

特点

该数据集的核心特点在于其结构化的组织方式与时间维度的可追溯性。每个配置下的分割不仅记录了不同时间点的评测结果，还通过 "latest" 分割自动指向最新数据，便于用户获取最新进展。数据集中涵盖了丰富的评测任务，包括 ARC-Challenge、DROP、GSM8K、HellaSwag、WinoGrande 以及涵盖 57 个学科的 MMLU 测试，每个任务均以 Parquet 格式存储，确保了数据的高效读取与处理。这种设计使得研究者能够深入分析模型在不同任务上的表现差异，并追踪其性能随时间的变化趋势。

使用方法

研究者可通过 Hugging Face 的 datasets 库便捷地加载该数据集。例如，使用 `load_dataset` 函数指定数据集名称和对应配置，如 `"harness_winogrande_5"`，并选择 `split="train"` 即可获取最新评测结果。对于需要回溯历史运行的需求，可依据时间戳分割名称加载特定运行的数据。此外，"results" 配置提供了聚合后的整体指标，便于快速评估模型在各项任务上的综合表现。这种灵活的加载方式支持从细粒度的任务详情到宏观的模型性能分析，为模型迭代与对比研究提供了坚实的数据基础。

背景与挑战

背景概述

在大型语言模型（LLM）蓬勃发展的当下，如何系统性地评估其多维度能力成为学界与工业界共同关注的核心议题。为此，Hugging Face团队于2023年创立了Open LLM Leaderboard，旨在通过标准化基准测试，为开源LLM提供公正、透明的性能比较平台。该数据集作为Leaderboard的副产品，由Clementine等人主导开发，专门记录模型gaodrew/gaodrew-gorgonzola-13b在多个任务上的评估细节，涵盖ARC挑战、DROP、GSM8K及Winogrande等典型评测集。数据集不仅存储了每次运行的原始结果，还通过64种配置对应不同任务，并保留多次运行的时间戳分片，为研究者提供了细粒度的模型性能追踪能力。这一工作填补了开源LLM评估中缺乏统一、可复现记录体系的空白，对推动模型对比研究与基准演进具有基础性价值。

当前挑战

该数据集面临的核心挑战首先来自领域问题层面：LLM评估本身存在任务多样性导致的指标碎片化困境，例如DROP任务对精确匹配和F1分数的要求与GSM8K的准确率目标差异显著，单一数据集难以全面反映模型能力。其次，构建过程中遭遇多重技术难点：评估流程需跨多次运行（示例包含三次独立评估），如何将不同时间戳下的结果以统一结构整合，并确保“latest”分片始终指向最新数据，对版本控制提出了严苛要求。此外，数据文件采用Parquet格式存储，虽利于高效读取，但跨配置（如HendrycksTest的57个子任务）的路径管理异常复杂，任何文件缺失或路径错位都会导致加载失败。最后，从结果聚合来看，不同运行可能覆盖不同任务集，如何避免部分任务因未更新而产生历史遗留偏差，也是维护该数据集完整性与时效性的持续挑战。

常用场景

经典使用场景

在大型语言模型（LLM）的评估与对比研究中，该数据集作为Open LLM Leaderboard的自动评测记录，被广泛用于标准化衡量不同模型的综合性能。其经典使用方式是通过加载各任务配置（如winogrande、gsm8k等），提取模型在推理、常识理解、数学求解等维度的细粒度得分，进而实现模型间横向比较与能力图谱绘制。研究者可依据不同时间戳的评测分片，追踪同一模型在迭代优化过程中的性能演变，为模型选型与改进提供量化依据。

衍生相关工作

该数据集衍生了一系列围绕LLM评测标准化的经典工作。例如，基于其多任务配置的启发，研究者提出了更细粒度的能力维度分解方法（如将MMLU拆解为57个子领域），并催生了针对特定领域（如医疗、法律）的垂直评测数据集。同时，其时间戳分片的设计理念被后续工作采纳，用于构建模型训练过程中的动态性能监控系统。此外，该数据集的存储格式与加载接口已成为HuggingFace生态中评测数据管理的范式模板，影响了后续多个大规模评测基准的构建。

数据集最近研究