open-llm-leaderboard-old/details_saberai__Zro1.5_3B

Name: open-llm-leaderboard-old/details_saberai__Zro1.5_3B
Creator: open-llm-leaderboard-old
Published: 2023-12-27 19:35:44
License: 暂无描述

Hugging Face2023-12-27 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/open-llm-leaderboard-old/details_saberai__Zro1.5_3B

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是在评估模型saberai/Zro1.5_3B时自动创建的，用于Open LLM Leaderboard。数据集包含63个配置，每个配置对应一个评估任务。数据集由一个运行创建，每个运行对应一个特定的分割，分割名称使用运行的时间戳。此外，还有一个名为results的配置，存储所有运行的聚合结果，用于计算和显示Leaderboard上的聚合指标。

提供机构：

open-llm-leaderboard-old

原始信息汇总

数据集概述

数据集简介

该数据集是在评估模型saberai/Zro1.5_3B在Open LLM Leaderboard上的自动创建的。数据集包含63个配置，每个配置对应一个评估任务。

数据集结构

数据集由1次运行创建，每个运行可以在每个配置中找到特定的分割，分割名称使用运行的时间戳。"train"分割始终指向最新的结果。

额外配置

一个额外的配置"results"存储所有运行的聚合结果，用于计算和显示在Open LLM Leaderboard上的聚合指标。

数据加载示例

python from datasets import load_dataset data = load_dataset("open-llm-leaderboard/details_saberai__Zro1.5_3B", "harness_winogrande_5", split="train")

最新结果

以下是2023-12-27T19:33:43.363454运行的最新结果：

python { "all": { "acc": 0.2628913556214231, "acc_stderr": 0.031108716303916813, "acc_norm": 0.2632892835008201, "acc_norm_stderr": 0.03179345445075825, "mc1": 0.2386780905752754, "mc1_stderr": 0.014922629695456418, "mc2": 0.36891896664444634, "mc2_stderr": 0.01421300651619945 }, "harness|arc:challenge|25": { "acc": 0.3216723549488055, "acc_stderr": 0.013650488084494166, "acc_norm": 0.35921501706484643, "acc_norm_stderr": 0.014020224155839152 }, "harness|hellaswag|10": { "acc": 0.4644493128858793, "acc_stderr": 0.0049771527464785885, "acc_norm": 0.6111332403903604, "acc_norm_stderr": 0.004864966792310698 }, "harness|hendrycksTest-abstract_algebra|5": { "acc": 0.27, "acc_stderr": 0.044619604333847415, "acc_norm": 0.27, "acc_norm_stderr": 0.044619604333847415 }, "harness|hendrycksTest-anatomy|5": { "acc": 0.3333333333333333, "acc_stderr": 0.04072314811876837, "acc_norm": 0.3333333333333333, "acc_norm_stderr": 0.04072314811876837 }, "harness|hendrycksTest-astronomy|5": { "acc": 0.21052631578947367, "acc_stderr": 0.03317672787533157, "acc_norm": 0.21052631578947367, "acc_norm_stderr": 0.03317672787533157 }, "harness|hendrycksTest-business_ethics|5": { "acc": 0.26, "acc_stderr": 0.04408440022768079, "acc_norm": 0.26, "acc_norm_stderr": 0.04408440022768079 }, "harness|hendrycksTest-clinical_knowledge|5": { "acc": 0.2792452830188679, "acc_stderr": 0.027611163402399715, "acc_norm": 0.2792452830188679, "acc_norm_stderr": 0.027611163402399715 }, "harness|hendrycksTest-college_biology|5": { "acc": 0.25, "acc_stderr": 0.03621034121889507, "acc_norm": 0.25, "acc_norm_stderr": 0.03621034121889507 }, "harness|hendrycksTest-college_chemistry|5": { "acc": 0.23, "acc_stderr": 0.04229525846816506, "acc_norm": 0.23, "acc_norm_stderr": 0.04229525846816506 }, "harness|hendrycksTest-college_computer_science|5": { "acc": 0.31, "acc_stderr": 0.04648231987117316, "acc_norm": 0.31, "acc_norm_stderr": 0.04648231987117316 }, "harness|hendrycksTest-college_mathematics|5": { "acc": 0.32, "acc_stderr": 0.046882617226215034, "acc_norm": 0.32, "acc_norm_stderr": 0.046882617226215034 }, "harness|hendrycksTest-college_medicine|5": { "acc": 0.21965317919075145, "acc_stderr": 0.031568093627031744, "acc_norm": 0.21965317919075145, "acc_norm_stderr": 0.031568093627031744 }, "harness|hendrycksTest-college_physics|5": { "acc": 0.17647058823529413, "acc_stderr": 0.03793281185307811, "acc_norm": 0.17647058823529413, "acc_norm_stderr": 0.03793281185307811 }, "harness|hendrycksTest-computer_security|5": { "acc": 0.29, "acc_stderr": 0.045604802157206845, "acc_norm": 0.29, "acc_norm_stderr": 0.045604802157206845 }, "harness|hendrycksTest-conceptual_physics|5": { "acc": 0.2978723404255319, "acc_stderr": 0.029896145682095462, "acc_norm": 0.2978723404255319, "acc_norm_stderr": 0.029896145682095462 }, "harness|hendrycksTest-econometrics|5": { "acc": 0.21052631578947367, "acc_stderr": 0.0383515395439942, "acc_norm": 0.21052631578947367, "acc_norm_stderr": 0.0383515395439942 }, "harness|hendrycksTest-electrical_engineering|5": { "acc": 0.2620689655172414, "acc_stderr": 0.036646663372252565, "acc_norm": 0.2620689655172414, "acc_norm_stderr": 0.036646663372252565 }, "harness|hendrycksTest-elementary_mathematics|5": { "acc": 0.25925925925925924, "acc_stderr": 0.02256989707491842, "acc_norm": 0.25925925925925924, "acc_norm_stderr": 0.02256989707491842 }, "harness|hendrycksTest-formal_logic|5": { "acc": 0.2222222222222222, "acc_stderr": 0.037184890068181146, "acc_norm": 0.2222222222222222, "acc_norm_stderr": 0.037184890068181146 }, "harness|hendrycksTest-global_facts|5": { "acc": 0.29, "acc_stderr": 0.04560480215720684, "acc_norm": 0.29, "acc_norm_stderr": 0.04560480215720684 }, "harness|hendrycksTest-high_school_biology|5": { "acc": 0.25806451612903225, "acc_stderr": 0.024892469172462843, "acc_norm": 0.25806451612903225, "acc_norm_stderr": 0.024892469172462843 }, "harness|hendrycksTest-high_school_chemistry|5": { "acc": 0.270935960591133, "acc_stderr": 0.031270907132976984, "acc_norm": 0.270935960591133, "acc_norm_stderr": 0.031270907132976984 }, "harness|hendrycksTest-high_school_computer_science|5": { "acc": 0.19, "acc_stderr": 0.039427724440366234, "acc_norm": 0.19, "acc_norm_stderr": 0.039427724440366234 }, "harness|hendrycksTest-high_school_european_history|5": { "acc": 0.2727272727272727, "acc_stderr": 0.03477691162163659, "acc_norm": 0.2727272727272727, "acc_norm_stderr": 0.03477691162163659 }, "harness|hendrycksTest-high_school_geography|5": { "acc": 0.26262626262626265, "acc_stderr": 0.03135305009533085, "acc_norm": 0.26262626262626265, "acc_norm_stderr": 0.03135305009533085 }, "harness|hendrycksTest-high_school_government_and_politics|5": { "acc": 0.21761658031088082, "acc_stderr": 0.029778663037752947, "acc_norm": 0.21761658031088082, "acc_norm_stderr": 0.029778663037752947 }, "harness|hendrycksTest-high_school_macroeconomics|5": { "acc": 0.2358974358974359, "acc_stderr": 0.021525965407408726, "acc_norm": 0.2358974358974359, "acc_norm_stderr": 0.021525965407408726 }, "harness|hendrycksTest-high_school_mathematics|5": { "acc": 0.24814814814814815, "acc_stderr": 0.0263357394040558, "acc_norm": 0.24814814814814815, "acc_norm_stderr": 0.0263357394040558

搜集汇总

数据集介绍

构建方式

在大型语言模型评测领域，Open LLM Leaderboard 作为权威的基准平台，为模型性能的横向对比提供了标准化框架。该数据集正是针对模型 saberai/Zro1.5_3B 在 Leaderboard 上的评估过程而自动生成的。其构建方式基于一次完整的评估运行，涵盖 63 个不同的评测任务配置，每个配置对应一个具体的子数据集。评估结果以 Parquet 格式存储，每个任务配置下包含以运行时间戳命名的数据拆分，而 'train' 拆分则始终指向最新一次评估的产出。此外，一个名为 'results' 的独立配置汇总了所有任务的聚合指标，用于 Leaderboard 上综合分数的计算与展示。

特点

该数据集的核心特色在于其结构化的多任务组织与动态更新机制。63 个配置覆盖了从常识推理（如 ARC、HellaSwag）到数学解题（GSM8K）、知识问答（MMLU 系列）及对抗性测试（TruthfulQA）等多元维度，全面刻画了模型在零样本或少样本场景下的能力边界。每次评估运行均生成独立的时间戳拆分，而 'latest' 拆分自动指向最新结果，确保了数据追踪的时序性与可复现性。这种设计不仅便于研究者回溯历史评估细节，还能无缝衔接持续性的模型迭代评测。

使用方法

研究者可通过 Hugging Face Datasets 库便捷地加载该数据。例如，使用 `load_dataset("open-llm-leaderboard/details_saberai__Zro1.5_3B", "harness_winogrande_5", split="train")` 即可获取 Winogrande 任务的最新详细结果。若需分析特定历史运行，可指定对应时间戳的拆分名称。对于整体性能概览，加载 'results' 配置将返回包含所有任务聚合指标（如准确率及其标准误）的 JSON 格式数据，便于进行模型能力的综合评估与对比分析。

背景与挑战

背景概述

大型语言模型（LLMs）的蓬勃发展催生了对其性能进行系统性评估的迫切需求，Open LLM Leaderboard应运而生，成为衡量模型在多样化自然语言理解与生成任务上表现的重要基准。该数据集由Hugging Face团队于2023年创建，旨在为saberai/Zro1.5_3B这一参数量为3B的模型提供透明、可复现的评估记录。核心研究问题聚焦于量化该模型在涵盖推理、常识、知识问答及数学求解等63个配置任务上的综合能力，例如ARC挑战、HellaSwag、GSM8K及MMLU等。通过记录2023年12月27日的单次运行结果，该数据集不仅为开发者提供了模型强弱的直观证据，更推动了社区对小型语言模型潜力的探索，对相关领域产生了方法论上的示范效应。

当前挑战

该数据集所解决的领域挑战在于，小型语言模型（如3B参数级别）在复杂推理与领域知识任务上普遍表现乏力。从结果可见，Zro1.5_3B在GSM8K数学推理任务上准确率仅为9.93%，在ARC挑战中约32.17%，揭示出模型在逻辑演绎与符号操作上的根本性短板。此外，构建过程中面临的核心挑战包括：需将单一模型的评估结果拆分为63个独立任务配置，并确保数据格式的标准化与可复现性；同时，处理不同任务间的评测指标差异（如准确率、归一化准确率及多项选择得分），并维护时间戳分片与最新结果的一致性。这些操作要求严格的元数据管理与版本控制，以防止评估碎片化，确保数据集在动态更新的Leaderboard生态中的可靠性与可用性。

常用场景

经典使用场景

在大型语言模型迅猛发展的浪潮中，对模型性能进行系统化、标准化评估成为推动技术进步的关键环节。该数据集专为Open LLM Leaderboard上的模型评估而设计，涵盖了ARC挑战赛、HellaSwag、MMLU（涵盖57个学科子集）、TruthfulQA、Winogrande以及GSM8K等63个经典评测任务。研究者可通过加载各任务对应的配置与数据分割，便捷地复现模型在常识推理、知识问答、数学求解及语言理解等多维度的表现，从而客观衡量模型在零样本或少样本条件下的综合能力。

实际应用

在实际应用中，该数据集为模型选型与部署提供了可靠依据。企业和研究机构可依据数据集中的评测结果，判断Zro1.5_3B等模型在客服对话、教育辅导、医疗咨询等场景下的适用性。例如，GSM8K上的数学推理成绩可指导模型在金融计算或科学模拟任务中的使用，而TruthfulQA的诚实性指标则对构建可信赖的问答系统至关重要。此外，该数据集亦可作为模型迭代的基准，持续追踪版本更新带来的性能变化。

衍生相关工作

该数据集源自Open LLM Leaderboard项目，其设计理念直接催生了多项衍生工作。后续研究包括基于该评测框架的模型性能预测方法、多任务学习中的任务难度分析，以及针对特定学科（如MMLU中的医学子集）的专项评估工具。同时，社区也借鉴其数据组织方式，构建了面向多语言模型、代码生成模型等细分领域的评测数据集，形成了以标准化、可复现为核心特色的模型评估生态。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集