open-llm-leaderboard-old/details_scaledown__ScaleDown-7B-slerp-v0.1

Name: open-llm-leaderboard-old/details_scaledown__ScaleDown-7B-slerp-v0.1
Creator: open-llm-leaderboard-old
Published: 2024-01-04 12:58:33
License: 暂无描述

Hugging Face2024-01-04 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/open-llm-leaderboard-old/details_scaledown__ScaleDown-7B-slerp-v0.1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是在评估模型scaledown/ScaleDown-7B-slerp-v0.1时自动生成的，包含63个配置，每个配置对应一个评估任务。数据集由1次运行生成，每次运行的结果存储在不同的分割中，分割名称使用运行的时间戳命名。此外，数据集还包含一个名为"results"的配置，用于存储所有运行的聚合结果，并在Open LLM Leaderboard上显示聚合指标。README还提供了如何加载数据的示例代码，并展示了最新的评估结果。

提供机构：

open-llm-leaderboard-old

原始信息汇总

数据集概述

数据集简介

该数据集是在评估模型 scaledown/ScaleDown-7B-slerp-v0.1 在 Open LLM Leaderboard 上的运行过程中自动创建的。

数据集组成

数据集包含 63 个配置，每个配置对应一个评估任务。
数据集从 1 次运行中创建，每个运行可以在每个配置中作为一个特定的 split 找到，split 名称使用运行的时间戳。
"train" split 始终指向最新的结果。
一个额外的配置 "results" 存储所有运行的聚合结果，用于计算和显示 Open LLM Leaderboard 上的聚合指标。

数据加载示例

python from datasets import load_dataset data = load_dataset("open-llm-leaderboard/details_scaledown__ScaleDown-7B-slerp-v0.1", "harness_winogrande_5", split="train")

最新结果

这些是最新的结果，来自 2024-01-04T12:55:50.011643 的运行： python { "all": { "acc": 0.6556854225506745, "acc_stderr": 0.03194313996110711, "acc_norm": 0.6565457814818652, "acc_norm_stderr": 0.03259529584470868, "mc1": 0.4467564259485924, "mc1_stderr": 0.017403977522557144, "mc2": 0.6190313414514481, "mc2_stderr": 0.01508778013321091 }, "harness|arc:challenge|25": { "acc": 0.6501706484641638, "acc_stderr": 0.013936809212158287, "acc_norm": 0.6800341296928327, "acc_norm_stderr": 0.013631345807016195 }, "harness|hellaswag|10": { "acc": 0.6620195180242979, "acc_stderr": 0.0047205513235471265, "acc_norm": 0.8570005974905397, "acc_norm_stderr": 0.003493567914093289 }, "harness|hendrycksTest-abstract_algebra|5": { "acc": 0.31, "acc_stderr": 0.04648231987117316, "acc_norm": 0.31, "acc_norm_stderr": 0.04648231987117316 }, "harness|hendrycksTest-anatomy|5": { "acc": 0.6370370370370371, "acc_stderr": 0.04153948404742398, "acc_norm": 0.6370370370370371, "acc_norm_stderr": 0.04153948404742398 }, "harness|hendrycksTest-astronomy|5": { "acc": 0.7039473684210527, "acc_stderr": 0.03715062154998904, "acc_norm": 0.7039473684210527, "acc_norm_stderr": 0.03715062154998904 }, "harness|hendrycksTest-business_ethics|5": { "acc": 0.62, "acc_stderr": 0.048783173121456316, "acc_norm": 0.62, "acc_norm_stderr": 0.048783173121456316 }, "harness|hendrycksTest-clinical_knowledge|5": { "acc": 0.7094339622641509, "acc_stderr": 0.02794321998933713, "acc_norm": 0.7094339622641509, "acc_norm_stderr": 0.02794321998933713 }, "harness|hendrycksTest-college_biology|5": { "acc": 0.7708333333333334, "acc_stderr": 0.03514697467862388, "acc_norm": 0.7708333333333334, "acc_norm_stderr": 0.03514697467862388 }, "harness|hendrycksTest-college_chemistry|5": { "acc": 0.49, "acc_stderr": 0.05024183937956912, "acc_norm": 0.49, "acc_norm_stderr": 0.05024183937956912 }, "harness|hendrycksTest-college_computer_science|5": { "acc": 0.5, "acc_stderr": 0.050251890762960605, "acc_norm": 0.5, "acc_norm_stderr": 0.050251890762960605 }, "harness|hendrycksTest-college_mathematics|5": { "acc": 0.33, "acc_stderr": 0.04725815626252604, "acc_norm": 0.33, "acc_norm_stderr": 0.04725815626252604 }, "harness|hendrycksTest-college_medicine|5": { "acc": 0.6705202312138728, "acc_stderr": 0.03583901754736412, "acc_norm": 0.6705202312138728, "acc_norm_stderr": 0.03583901754736412 }, "harness|hendrycksTest-college_physics|5": { "acc": 0.4117647058823529, "acc_stderr": 0.048971049527263666, "acc_norm": 0.4117647058823529, "acc_norm_stderr": 0.048971049527263666 }, "harness|hendrycksTest-computer_security|5": { "acc": 0.79, "acc_stderr": 0.04093601807403326, "acc_norm": 0.79, "acc_norm_stderr": 0.04093601807403326 }, "harness|hendrycksTest-conceptual_physics|5": { "acc": 0.6170212765957447, "acc_stderr": 0.03177821250236922, "acc_norm": 0.6170212765957447, "acc_norm_stderr": 0.03177821250236922 }, "harness|hendrycksTest-econometrics|5": { "acc": 0.49122807017543857, "acc_stderr": 0.04702880432049615, "acc_norm": 0.49122807017543857, "acc_norm_stderr": 0.04702880432049615 }, "harness|hendrycksTest-electrical_engineering|5": { "acc": 0.5586206896551724, "acc_stderr": 0.04137931034482757, "acc_norm": 0.5586206896551724, "acc_norm_stderr": 0.04137931034482757 }, "harness|hendrycksTest-elementary_mathematics|5": { "acc": 0.41005291005291006, "acc_stderr": 0.025331202438944433, "acc_norm": 0.41005291005291006, "acc_norm_stderr": 0.025331202438944433 }, "harness|hendrycksTest-formal_logic|5": { "acc": 0.46825396825396826, "acc_stderr": 0.04463112720677172, "acc_norm": 0.46825396825396826, "acc_norm_stderr": 0.04463112720677172 }, "harness|hendrycksTest-global_facts|5": { "acc": 0.37, "acc_stderr": 0.04852365870939099, "acc_norm": 0.37, "acc_norm_stderr": 0.04852365870939099 }, "harness|hendrycksTest-high_school_biology|5": { "acc": 0.7935483870967742, "acc_stderr": 0.023025899617188716, "acc_norm": 0.7935483870967742, "acc_norm_stderr": 0.023025899617188716 }, "harness|hendrycksTest-high_school_chemistry|5": { "acc": 0.5123152709359606, "acc_stderr": 0.035169204442208966, "acc_norm": 0.5123152709359606, "acc_norm_stderr": 0.035169204442208966 }, "harness|hendrycksTest-high_school_computer_science|5": { "acc": 0.69, "acc_stderr": 0.04648231987117316, "acc_norm": 0.69, "acc_norm_stderr": 0.04648231987117316 }, "harness|hendrycksTest-high_school_european_history|5": { "acc": 0.7696969696969697, "acc_stderr": 0.0328766675860349, "acc_norm": 0.7696969696969697, "acc_norm_stderr": 0.0328766675860349 }, "harness|hendrycksTest-high_school_geography|5": { "acc": 0.803030303030303, "acc_stderr": 0.028335609732463362, "acc_norm": 0.803030303030303, "acc_norm_stderr": 0.028335609732463362 }, "harness|hendrycksTest-high_school_government_and_politics|5": { "acc": 0.8860103626943006, "acc_stderr": 0.022935144053919443, "acc_norm": 0.8860103626943006, "acc_norm_stderr": 0.022935144053919443 }, "harness|hendrycksTest-high_school_macroeconomics|5": { "acc": 0.6820512820512821, "acc_stderr": 0.023610884308927865, "acc_norm": 0.6820512820512821, "acc_norm_stderr": 0.023610884308927865 }, "harness|hendrycksTest-high_school_mathematics|5": { "acc": 0.36666666666666664, "acc_stderr": 0.029381620726465066, "acc_norm": 0.36666666666666664, "acc_norm_stderr": 0.029381620726465066 }, "harness|hendrycksTest-high_school_microeconomics|5": { "acc":

搜集汇总

数据集介绍

构建方式

在大型语言模型评估领域，Open LLM Leaderboard 为模型性能的标准化度量提供了重要平台。该数据集是模型 scaledown/ScaleDown-7B-slerp-v0.1 在 Open LLM Leaderboard 上评估过程中自动生成的产物，涵盖了 63 个配置，每个配置对应一个被评估的任务。数据集源自单次运行，每次运行的结果以时间戳命名的分割形式存储于各配置中，而 'train' 分割则始终指向最新的评估结果。此外，还包含一个名为 'results' 的额外配置，用于汇总所有运行的聚合指标，为排行榜上的综合指标计算与展示提供支撑。

使用方法

研究人员可通过 HuggingFace 的 datasets 库轻松加载该数据集。例如，使用 load_dataset 函数指定数据集名称及目标配置（如 'harness_winogrande_5'）和分割（如 'train'），即可获取特定任务的评估详情。数据集支持按任务配置和运行时间戳进行灵活筛选，便于进行纵向对比或横向分析。对于希望复现排行榜结果或进行定制化评估的用户，可直接调用 'results' 配置中的聚合数据，或解析各任务配置下的详细 Parquet 文件，以提取所需的性能指标进行后续研究。

背景与挑战

背景概述

大语言模型（LLM）的迅猛发展催生了对其性能进行系统性评估的迫切需求，Open LLM Leaderboard应运而生，成为衡量模型在多种自然语言理解与生成任务上表现的重要基准平台。该数据集由HuggingFace团队于2024年初创建，核心研究人员包括Clémentine等，旨在为社区提供透明、可复现的模型评测结果。该数据集围绕scaledown/ScaleDown-7B-slerp-v0.1这一7B参数规模的模型展开，通过63个配置覆盖了ARC挑战集、HellaSwag、MMLU（涵盖57个学科）、TruthfulQA、Winogrande及GSM8K等多样化任务，全面评估模型的推理、常识、数学及知识广度。其影响力在于不仅为模型开发者提供了详细的性能剖析，还推动了LLM评测标准化进程，成为社区中模型比较与迭代的参考标杆。

当前挑战

该数据集所应对的核心领域挑战在于如何全面、公正地评估大语言模型在复杂多任务场景下的泛化能力，避免单一指标或任务带来的偏差。具体挑战包括：1）任务多样性带来的评测一致性难题，例如MMLU中涵盖从抽象代数到病毒学的57个学科，不同学科间的难度差异与知识覆盖度需平衡；2）模型在数学推理（如GSM8K）与常识推理（如Winogrande）上的表现波动显著，凸显了模型在逻辑链条长、依赖世界知识的任务中的脆弱性。在构建过程中，挑战体现为：1）大规模评测数据的自动化生成与格式统一，需将63个配置的Parquet文件按时间戳分片存储，确保结果可追溯；2）评测结果的实时聚合与展示，需处理不同运行批次间的任务覆盖差异，维护“最新”分片与历史数据的兼容性，这对数据管道的一致性与可复现性提出了较高要求。

常用场景

经典使用场景

在大型语言模型（LLM）蓬勃发展的背景下，评估其综合性能成为研究热点。该数据集专为Open LLM Leaderboard上的模型评估而生，记录了scaledown/ScaleDown-7B-slerp-v0.1模型在63个任务配置上的详尽表现。其经典使用场景在于，研究者可借助这一标准化数据集，系统性地横向对比不同LLM在推理、常识、数学及多学科知识等维度的能力，从而精准刻画模型的优势与短板。

解决学术问题

该数据集有效解决了LLM评估中普遍存在的基准不统一、结果难以复现的学术困境。通过提供涵盖ARC-Challenge、HellaSwag、GSM8K及57个MMLU子任务的结构化评估结果，它使得研究者能够基于同一套严谨的评测体系，客观量化模型在复杂推理与知识掌握上的进展。这一标准化框架极大地促进了模型性能的可比性与透明度，为LLM领域的进步奠定了坚实的数据基础。

实际应用

在实际应用中，该数据集充当了模型选型与优化的重要参考依据。开发者可以通过分析该数据集中的细粒度得分，快速识别出ScaleDown-7B-slerp-v0.1在特定领域（如医学、法律或数学）的强项与弱项，从而指导模型微调、领域适配或知识蒸馏等工程实践。此外，其清晰的结果存储结构（按时间戳分片）也便于持续追踪模型迭代的演进轨迹。

数据集最近研究