open-llm-leaderboard-old/details_ahxt__LiteLlama-460M-1T

Name: open-llm-leaderboard-old/details_ahxt__LiteLlama-460M-1T
Creator: open-llm-leaderboard-old
Published: 2024-01-10 18:48:57
License: 暂无描述

Hugging Face2024-01-10 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/open-llm-leaderboard-old/details_ahxt__LiteLlama-460M-1T

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是在Open LLM Leaderboard上对模型ahxt/LiteLlama-460M-1T进行评估时自动创建的。数据集由63个配置组成，每个配置对应一个评估任务。数据集从1次运行中创建，每次运行可以在每个配置中找到，运行的时间戳作为分割的名称。train分割始终指向最新的结果。此外，results配置存储了所有运行的聚合结果，并用于计算和显示Open LLM Leaderboard上的聚合指标。

提供机构：

open-llm-leaderboard-old

原始信息汇总

数据集概述

数据集摘要

该数据集是在对模型 ahxt/LiteLlama-460M-1T 进行评估运行期间自动创建的，用于 Open LLM Leaderboard。

数据集组成

数据集包含 63 个配置，每个配置对应一个评估任务。
数据集从 1 次运行中创建，每次运行可以在每个配置中找到特定的分割，分割名称使用运行的时间戳。
"train" 分割始终指向最新的结果。
额外的 "results" 配置存储所有运行的聚合结果，用于计算和显示 Open LLM Leaderboard 上的聚合指标。

数据加载示例

python from datasets import load_dataset data = load_dataset("open-llm-leaderboard/details_ahxt__LiteLlama-460M-1T", "harness_winogrande_5", split="train")

最新结果

这些是最新结果（来自 2024-01-10T18:47:04.712881 运行）的示例： python { "all": { "acc": 0.2596285330908002, "acc_stderr": 0.030853678433435363, "acc_norm": 0.26150708400692735, "acc_norm_stderr": 0.03167597785984203, "mc1": 0.2386780905752754, "mc1_stderr": 0.014922629695456416, "mc2": 0.41593752921387595, "mc2_stderr": 0.014925673218331999 }, "harness|arc:challenge|25": { "acc": 0.21160409556313994, "acc_stderr": 0.011935916358632857, "acc_norm": 0.24829351535836178, "acc_norm_stderr": 0.012624912868089762 }, "harness|hellaswag|10": { "acc": 0.3270264887472615, "acc_stderr": 0.0046816826053479, "acc_norm": 0.38388767177853017, "acc_norm_stderr": 0.004853371646239247 }, "harness|hendrycksTest-abstract_algebra|5": { "acc": 0.2, "acc_stderr": 0.04020151261036845, "acc_norm": 0.2, "acc_norm_stderr": 0.04020151261036845 }, "harness|hendrycksTest-anatomy|5": { "acc": 0.2518518518518518, "acc_stderr": 0.03749850709174023, "acc_norm": 0.2518518518518518, "acc_norm_stderr": 0.03749850709174023 }, "harness|hendrycksTest-astronomy|5": { "acc": 0.18421052631578946, "acc_stderr": 0.0315469804508223, "acc_norm": 0.18421052631578946, "acc_norm_stderr": 0.0315469804508223 }, "harness|hendrycksTest-business_ethics|5": { "acc": 0.23, "acc_stderr": 0.04229525846816507, "acc_norm": 0.23, "acc_norm_stderr": 0.04229525846816507 }, "harness|hendrycksTest-clinical_knowledge|5": { "acc": 0.23773584905660378, "acc_stderr": 0.026199808807561918, "acc_norm": 0.23773584905660378, "acc_norm_stderr": 0.026199808807561918 }, "harness|hendrycksTest-college_biology|5": { "acc": 0.24305555555555555, "acc_stderr": 0.03586879280080341, "acc_norm": 0.24305555555555555, "acc_norm_stderr": 0.03586879280080341 }, "harness|hendrycksTest-college_chemistry|5": { "acc": 0.21, "acc_stderr": 0.040936018074033256, "acc_norm": 0.21, "acc_norm_stderr": 0.040936018074033256 }, "harness|hendrycksTest-college_computer_science|5": { "acc": 0.35, "acc_stderr": 0.047937248544110196, "acc_norm": 0.35, "acc_norm_stderr": 0.047937248544110196 }, "harness|hendrycksTest-college_mathematics|5": { "acc": 0.31, "acc_stderr": 0.04648231987117316, "acc_norm": 0.31, "acc_norm_stderr": 0.04648231987117316 }, "harness|hendrycksTest-college_medicine|5": { "acc": 0.23699421965317918, "acc_stderr": 0.03242414757483098, "acc_norm": 0.23699421965317918, "acc_norm_stderr": 0.03242414757483098 }, "harness|hendrycksTest-college_physics|5": { "acc": 0.29411764705882354, "acc_stderr": 0.04533838195929776, "acc_norm": 0.29411764705882354, "acc_norm_stderr": 0.04533838195929776 }, "harness|hendrycksTest-computer_security|5": { "acc": 0.22, "acc_stderr": 0.0416333199893227, "acc_norm": 0.22, "acc_norm_stderr": 0.0416333199893227 }, "harness|hendrycksTest-conceptual_physics|5": { "acc": 0.18723404255319148, "acc_stderr": 0.025501588341883607, "acc_norm": 0.18723404255319148, "acc_norm_stderr": 0.025501588341883607 }, "harness|hendrycksTest-econometrics|5": { "acc": 0.24561403508771928, "acc_stderr": 0.04049339297748141, "acc_norm": 0.24561403508771928, "acc_norm_stderr": 0.04049339297748141 }, "harness|hendrycksTest-electrical_engineering|5": { "acc": 0.23448275862068965, "acc_stderr": 0.035306258743465914, "acc_norm": 0.23448275862068965, "acc_norm_stderr": 0.035306258743465914 }, "harness|hendrycksTest-elementary_mathematics|5": { "acc": 0.2566137566137566, "acc_stderr": 0.022494510767503154, "acc_norm": 0.2566137566137566, "acc_norm_stderr": 0.022494510767503154 }, "harness|hendrycksTest-formal_logic|5": { "acc": 0.2619047619047619, "acc_stderr": 0.03932537680392871, "acc_norm": 0.2619047619047619, "acc_norm_stderr": 0.03932537680392871 }, "harness|hendrycksTest-global_facts|5": { "acc": 0.2, "acc_stderr": 0.04020151261036846, "acc_norm": 0.2, "acc_norm_stderr": 0.04020151261036846 }, "harness|hendrycksTest-high_school_biology|5": { "acc": 0.2903225806451613, "acc_stderr": 0.025822106119415888, "acc_norm": 0.2903225806451613, "acc_norm_stderr": 0.025822106119415888 }, "harness|hendrycksTest-high_school_chemistry|5": { "acc": 0.2561576354679803, "acc_stderr": 0.0307127300709826, "acc_norm": 0.2561576354679803, "acc_norm_stderr": 0.0307127300709826 }, "harness|hendrycksTest-high_school_computer_science|5": { "acc": 0.27, "acc_stderr": 0.044619604333847394, "acc_norm": 0.27, "acc_norm_stderr": 0.044619604333847394 }, "harness|hendrycksTest-high_school_european_history|5": { "acc": 0.24242424242424243, "acc_stderr": 0.03346409881055953, "acc_norm": 0.24242424242424243, "acc_norm_stderr": 0.03346409881055953 }, "harness|hendrycksTest-high_school_geography|5": { "acc": 0.3333333333333333, "acc_stderr": 0.03358618145732523, "acc_norm": 0.3333333333333333, "acc_norm_stderr": 0.03358618145732523 }, "harness|hendrycksTest-high_school_government_and_politics|5": { "acc": 0.3471502590673575, "acc_stderr": 0.03435696168361355, "acc_norm": 0.3471502590673575, "acc_norm_stderr": 0.03435696168361355 }, "harness|hendrycksTest-high_school_macroeconomics|5": { "acc": 0.3230769230769231, "acc_stderr": 0.02371088850197056, "acc_norm": 0.3230769230769231, "acc_norm_stderr": 0.02371088850197056 }, "harness|hendrycksTest-high_school_mathematics|5": { "acc": 0.2777777777777778, "acc_stderr": 0.02730914058823019, "acc_norm": 0.2777777777777778, "acc_norm_stderr": 0.02730914058823019 }, "harness|hendrycksTest-high_school_microeconomics|5": { "acc": 0.20

搜集汇总

数据集介绍

构建方式

在大型语言模型评估领域，该数据集作为Open LLM Leaderboard评估流程的自动化产物而构建。其核心机制是在对特定模型ahxt/LiteLlama-460M-1T进行系统性评测时，自动捕获并结构化所有评测任务的详细结果。数据集通过63个独立配置项组织数据，每个配置对应一项具体的评测任务，例如ARC挑战赛、HellaSwag常识推理或MMLU专业学科测试。数据生成过程将每次评估运行记录为独立的数据切片，并以时间戳命名，确保评估历程的可追溯性。一个名为“results”的额外配置则汇总了所有运行的聚合指标，为模型综合能力分析提供基础。

特点

该数据集展现了评测结果数据的结构化与版本化特征。其多配置架构将涵盖推理、常识、专业知识等维度的63项任务结果清晰隔离，便于进行细粒度的模型能力剖析。数据集通过“latest”切片始终指向最新评估结果，而历史运行记录则以时间戳切片形式完整保留，实现了评估结果的动态追踪与历史回溯。这种设计不仅支持横向比较模型在不同任务上的表现差异，也允许纵向分析同一模型在迭代过程中的性能演进。数据集中包含的准确率及其标准误差等量化指标，为客观衡量模型性能提供了可靠依据。

使用方法

研究人员可利用`datasets`库便捷加载该数据集以进行深入分析。通过指定数据集名称、具体任务配置（如`harness_winogrande_5`）和切片（如`train`代表最新结果），即可获取对应评估的详细记录。例如，执行`load_dataset("open-llm-leaderboard/details_ahxt__LiteLlama-460M-1T", "harness_winogrande_5", split="train")`可加载Winogrande任务的最新评测数据。对于聚合分析，可调用“results”配置获取整体性能指标。这种方法使得研究者能够灵活提取特定任务或综合评估数据，服务于模型性能诊断、基准对比或评估方法学研究。

背景与挑战

背景概述

在大型语言模型（LLM）快速发展的背景下，HuggingFace于2023年推出了Open LLM Leaderboard，旨在为社区提供一个透明、标准化的模型评估平台。该数据集作为该排行榜的衍生产物，专门记录了模型ahxt/LiteLlama-460M-1T在2024年1月10日的评估详情。其核心研究问题聚焦于如何系统性地量化轻量级语言模型在多样化任务上的性能，涵盖常识推理、专业知识及数学能力等多个维度。通过整合ARC、HellaSwag、MMLU及TruthfulQA等权威基准，该数据集为模型间的横向比较提供了细致的数据支撑，推动了开源模型评估的规范化和可复现性。

当前挑战

该数据集所应对的领域挑战在于，当前轻量级语言模型在复杂推理和专业知识任务上普遍表现薄弱，例如在GSM8K数学推理任务中准确率为零，凸显了模型在逻辑演算和符号处理方面的固有局限。构建过程中的挑战则体现在评估框架的集成与数据一致性维护上，需将多达63项异构任务配置统一至同一评估流水线，并确保多次运行结果的时序对齐与聚合指标计算的准确性，这对评估系统的鲁棒性和数据版本的精细管理提出了较高要求。

常用场景

经典使用场景

在大型语言模型评估领域，open-llm-leaderboard-old/details_ahxt__LiteLlama-460M-1T数据集作为Open LLM Leaderboard的衍生评估记录，其经典使用场景在于为研究人员提供标准化基准测试的详细结果。该数据集通过整合ARC挑战赛、HellaSwag、MMLU及TruthfulQA等多个权威评测任务，构建了多维度的模型能力评估框架。研究者可借助这些细粒度的性能数据，系统分析模型在常识推理、语言理解、专业知识掌握及真实性等方面的表现差异，从而为模型优化与比较提供实证依据。

解决学术问题

该数据集有效解决了大型语言模型评估中标准化与可复现性的核心学术问题。通过公开详细的评测配置与结果数据，它使跨模型性能对比成为可能，并促进了评估方法的透明化。其意义在于建立了统一的评估基准，帮助学术界识别模型在特定任务上的能力边界，如LiteLlama-460M-1T在MMLU专业科目上的表现揭示了小型模型的知识局限性。这种数据驱动的评估方式推动了模型能力诊断的精细化，为后续研究指明了改进方向。

衍生相关工作

围绕该数据集衍生的经典工作主要集中于评估方法的改进与模型能力的深入分析。例如，基于Open LLM Leaderboard的评估框架，后续研究提出了更细粒度的任务分解方案，以揭示模型在子领域中的表现差异。同时，这些数据常被用于构建模型能力剖面图，支持对缩放定律、知识泛化等理论问题的探讨。相关研究还推动了评估基准的迭代更新，促进了更全面、公平的模型评估生态系统的形成。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集