five

open-llm-leaderboard-old/details_saberai__Zro1.5_3B

收藏
Hugging Face2023-12-27 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/open-llm-leaderboard-old/details_saberai__Zro1.5_3B
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是在评估模型saberai/Zro1.5_3B时自动创建的,用于Open LLM Leaderboard。数据集包含63个配置,每个配置对应一个评估任务。数据集由一个运行创建,每个运行对应一个特定的分割,分割名称使用运行的时间戳。此外,还有一个名为results的配置,存储所有运行的聚合结果,用于计算和显示Leaderboard上的聚合指标。

该数据集是在评估模型saberai/Zro1.5_3B时自动创建的,用于Open LLM Leaderboard。数据集包含63个配置,每个配置对应一个评估任务。数据集由一个运行创建,每个运行对应一个特定的分割,分割名称使用运行的时间戳。此外,还有一个名为results的配置,存储所有运行的聚合结果,用于计算和显示Leaderboard上的聚合指标。
提供机构:
open-llm-leaderboard-old
原始信息汇总

数据集概述

数据集简介

该数据集是在评估模型saberai/Zro1.5_3BOpen LLM Leaderboard上的自动创建的。数据集包含63个配置,每个配置对应一个评估任务。

数据集结构

数据集由1次运行创建,每个运行可以在每个配置中找到特定的分割,分割名称使用运行的时间戳。"train"分割始终指向最新的结果。

额外配置

一个额外的配置"results"存储所有运行的聚合结果,用于计算和显示在Open LLM Leaderboard上的聚合指标。

数据加载示例

python from datasets import load_dataset data = load_dataset("open-llm-leaderboard/details_saberai__Zro1.5_3B", "harness_winogrande_5", split="train")

最新结果

以下是2023-12-27T19:33:43.363454运行的最新结果:

python { "all": { "acc": 0.2628913556214231, "acc_stderr": 0.031108716303916813, "acc_norm": 0.2632892835008201, "acc_norm_stderr": 0.03179345445075825, "mc1": 0.2386780905752754, "mc1_stderr": 0.014922629695456418, "mc2": 0.36891896664444634, "mc2_stderr": 0.01421300651619945 }, "harness|arc:challenge|25": { "acc": 0.3216723549488055, "acc_stderr": 0.013650488084494166, "acc_norm": 0.35921501706484643, "acc_norm_stderr": 0.014020224155839152 }, "harness|hellaswag|10": { "acc": 0.4644493128858793, "acc_stderr": 0.0049771527464785885, "acc_norm": 0.6111332403903604, "acc_norm_stderr": 0.004864966792310698 }, "harness|hendrycksTest-abstract_algebra|5": { "acc": 0.27, "acc_stderr": 0.044619604333847415, "acc_norm": 0.27, "acc_norm_stderr": 0.044619604333847415 }, "harness|hendrycksTest-anatomy|5": { "acc": 0.3333333333333333, "acc_stderr": 0.04072314811876837, "acc_norm": 0.3333333333333333, "acc_norm_stderr": 0.04072314811876837 }, "harness|hendrycksTest-astronomy|5": { "acc": 0.21052631578947367, "acc_stderr": 0.03317672787533157, "acc_norm": 0.21052631578947367, "acc_norm_stderr": 0.03317672787533157 }, "harness|hendrycksTest-business_ethics|5": { "acc": 0.26, "acc_stderr": 0.04408440022768079, "acc_norm": 0.26, "acc_norm_stderr": 0.04408440022768079 }, "harness|hendrycksTest-clinical_knowledge|5": { "acc": 0.2792452830188679, "acc_stderr": 0.027611163402399715, "acc_norm": 0.2792452830188679, "acc_norm_stderr": 0.027611163402399715 }, "harness|hendrycksTest-college_biology|5": { "acc": 0.25, "acc_stderr": 0.03621034121889507, "acc_norm": 0.25, "acc_norm_stderr": 0.03621034121889507 }, "harness|hendrycksTest-college_chemistry|5": { "acc": 0.23, "acc_stderr": 0.04229525846816506, "acc_norm": 0.23, "acc_norm_stderr": 0.04229525846816506 }, "harness|hendrycksTest-college_computer_science|5": { "acc": 0.31, "acc_stderr": 0.04648231987117316, "acc_norm": 0.31, "acc_norm_stderr": 0.04648231987117316 }, "harness|hendrycksTest-college_mathematics|5": { "acc": 0.32, "acc_stderr": 0.046882617226215034, "acc_norm": 0.32, "acc_norm_stderr": 0.046882617226215034 }, "harness|hendrycksTest-college_medicine|5": { "acc": 0.21965317919075145, "acc_stderr": 0.031568093627031744, "acc_norm": 0.21965317919075145, "acc_norm_stderr": 0.031568093627031744 }, "harness|hendrycksTest-college_physics|5": { "acc": 0.17647058823529413, "acc_stderr": 0.03793281185307811, "acc_norm": 0.17647058823529413, "acc_norm_stderr": 0.03793281185307811 }, "harness|hendrycksTest-computer_security|5": { "acc": 0.29, "acc_stderr": 0.045604802157206845, "acc_norm": 0.29, "acc_norm_stderr": 0.045604802157206845 }, "harness|hendrycksTest-conceptual_physics|5": { "acc": 0.2978723404255319, "acc_stderr": 0.029896145682095462, "acc_norm": 0.2978723404255319, "acc_norm_stderr": 0.029896145682095462 }, "harness|hendrycksTest-econometrics|5": { "acc": 0.21052631578947367, "acc_stderr": 0.0383515395439942, "acc_norm": 0.21052631578947367, "acc_norm_stderr": 0.0383515395439942 }, "harness|hendrycksTest-electrical_engineering|5": { "acc": 0.2620689655172414, "acc_stderr": 0.036646663372252565, "acc_norm": 0.2620689655172414, "acc_norm_stderr": 0.036646663372252565 }, "harness|hendrycksTest-elementary_mathematics|5": { "acc": 0.25925925925925924, "acc_stderr": 0.02256989707491842, "acc_norm": 0.25925925925925924, "acc_norm_stderr": 0.02256989707491842 }, "harness|hendrycksTest-formal_logic|5": { "acc": 0.2222222222222222, "acc_stderr": 0.037184890068181146, "acc_norm": 0.2222222222222222, "acc_norm_stderr": 0.037184890068181146 }, "harness|hendrycksTest-global_facts|5": { "acc": 0.29, "acc_stderr": 0.04560480215720684, "acc_norm": 0.29, "acc_norm_stderr": 0.04560480215720684 }, "harness|hendrycksTest-high_school_biology|5": { "acc": 0.25806451612903225, "acc_stderr": 0.024892469172462843, "acc_norm": 0.25806451612903225, "acc_norm_stderr": 0.024892469172462843 }, "harness|hendrycksTest-high_school_chemistry|5": { "acc": 0.270935960591133, "acc_stderr": 0.031270907132976984, "acc_norm": 0.270935960591133, "acc_norm_stderr": 0.031270907132976984 }, "harness|hendrycksTest-high_school_computer_science|5": { "acc": 0.19, "acc_stderr": 0.039427724440366234, "acc_norm": 0.19, "acc_norm_stderr": 0.039427724440366234 }, "harness|hendrycksTest-high_school_european_history|5": { "acc": 0.2727272727272727, "acc_stderr": 0.03477691162163659, "acc_norm": 0.2727272727272727, "acc_norm_stderr": 0.03477691162163659 }, "harness|hendrycksTest-high_school_geography|5": { "acc": 0.26262626262626265, "acc_stderr": 0.03135305009533085, "acc_norm": 0.26262626262626265, "acc_norm_stderr": 0.03135305009533085 }, "harness|hendrycksTest-high_school_government_and_politics|5": { "acc": 0.21761658031088082, "acc_stderr": 0.029778663037752947, "acc_norm": 0.21761658031088082, "acc_norm_stderr": 0.029778663037752947 }, "harness|hendrycksTest-high_school_macroeconomics|5": { "acc": 0.2358974358974359, "acc_stderr": 0.021525965407408726, "acc_norm": 0.2358974358974359, "acc_norm_stderr": 0.021525965407408726 }, "harness|hendrycksTest-high_school_mathematics|5": { "acc": 0.24814814814814815, "acc_stderr": 0.0263357394040558, "acc_norm": 0.24814814814814815, "acc_norm_stderr": 0.0263357394040558

搜集汇总
数据集介绍
main_image_url
构建方式
在大型语言模型评测领域,Open LLM Leaderboard 作为权威的基准平台,为模型性能的横向对比提供了标准化框架。该数据集正是针对模型 saberai/Zro1.5_3B 在 Leaderboard 上的评估过程而自动生成的。其构建方式基于一次完整的评估运行,涵盖 63 个不同的评测任务配置,每个配置对应一个具体的子数据集。评估结果以 Parquet 格式存储,每个任务配置下包含以运行时间戳命名的数据拆分,而 'train' 拆分则始终指向最新一次评估的产出。此外,一个名为 'results' 的独立配置汇总了所有任务的聚合指标,用于 Leaderboard 上综合分数的计算与展示。
特点
该数据集的核心特色在于其结构化的多任务组织与动态更新机制。63 个配置覆盖了从常识推理(如 ARC、HellaSwag)到数学解题(GSM8K)、知识问答(MMLU 系列)及对抗性测试(TruthfulQA)等多元维度,全面刻画了模型在零样本或少样本场景下的能力边界。每次评估运行均生成独立的时间戳拆分,而 'latest' 拆分自动指向最新结果,确保了数据追踪的时序性与可复现性。这种设计不仅便于研究者回溯历史评估细节,还能无缝衔接持续性的模型迭代评测。
使用方法
研究者可通过 Hugging Face Datasets 库便捷地加载该数据。例如,使用 `load_dataset("open-llm-leaderboard/details_saberai__Zro1.5_3B", "harness_winogrande_5", split="train")` 即可获取 Winogrande 任务的最新详细结果。若需分析特定历史运行,可指定对应时间戳的拆分名称。对于整体性能概览,加载 'results' 配置将返回包含所有任务聚合指标(如准确率及其标准误)的 JSON 格式数据,便于进行模型能力的综合评估与对比分析。
背景与挑战
背景概述
大型语言模型(LLMs)的蓬勃发展催生了对其性能进行系统性评估的迫切需求,Open LLM Leaderboard应运而生,成为衡量模型在多样化自然语言理解与生成任务上表现的重要基准。该数据集由Hugging Face团队于2023年创建,旨在为saberai/Zro1.5_3B这一参数量为3B的模型提供透明、可复现的评估记录。核心研究问题聚焦于量化该模型在涵盖推理、常识、知识问答及数学求解等63个配置任务上的综合能力,例如ARC挑战、HellaSwag、GSM8K及MMLU等。通过记录2023年12月27日的单次运行结果,该数据集不仅为开发者提供了模型强弱的直观证据,更推动了社区对小型语言模型潜力的探索,对相关领域产生了方法论上的示范效应。
当前挑战
该数据集所解决的领域挑战在于,小型语言模型(如3B参数级别)在复杂推理与领域知识任务上普遍表现乏力。从结果可见,Zro1.5_3B在GSM8K数学推理任务上准确率仅为9.93%,在ARC挑战中约32.17%,揭示出模型在逻辑演绎与符号操作上的根本性短板。此外,构建过程中面临的核心挑战包括:需将单一模型的评估结果拆分为63个独立任务配置,并确保数据格式的标准化与可复现性;同时,处理不同任务间的评测指标差异(如准确率、归一化准确率及多项选择得分),并维护时间戳分片与最新结果的一致性。这些操作要求严格的元数据管理与版本控制,以防止评估碎片化,确保数据集在动态更新的Leaderboard生态中的可靠性与可用性。
常用场景
经典使用场景
在大型语言模型迅猛发展的浪潮中,对模型性能进行系统化、标准化评估成为推动技术进步的关键环节。该数据集专为Open LLM Leaderboard上的模型评估而设计,涵盖了ARC挑战赛、HellaSwag、MMLU(涵盖57个学科子集)、TruthfulQA、Winogrande以及GSM8K等63个经典评测任务。研究者可通过加载各任务对应的配置与数据分割,便捷地复现模型在常识推理、知识问答、数学求解及语言理解等多维度的表现,从而客观衡量模型在零样本或少样本条件下的综合能力。
实际应用
在实际应用中,该数据集为模型选型与部署提供了可靠依据。企业和研究机构可依据数据集中的评测结果,判断Zro1.5_3B等模型在客服对话、教育辅导、医疗咨询等场景下的适用性。例如,GSM8K上的数学推理成绩可指导模型在金融计算或科学模拟任务中的使用,而TruthfulQA的诚实性指标则对构建可信赖的问答系统至关重要。此外,该数据集亦可作为模型迭代的基准,持续追踪版本更新带来的性能变化。
衍生相关工作
该数据集源自Open LLM Leaderboard项目,其设计理念直接催生了多项衍生工作。后续研究包括基于该评测框架的模型性能预测方法、多任务学习中的任务难度分析,以及针对特定学科(如MMLU中的医学子集)的专项评估工具。同时,社区也借鉴其数据组织方式,构建了面向多语言模型、代码生成模型等细分领域的评测数据集,形成了以标准化、可复现为核心特色的模型评估生态。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作