open-llm-leaderboard-old/details_princeton-nlp__Sheared-Pythia-160m

Name: open-llm-leaderboard-old/details_princeton-nlp__Sheared-Pythia-160m
Creator: open-llm-leaderboard-old
Published: 2024-03-05 11:53:50
License: 暂无描述

Hugging Face2024-03-05 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/open-llm-leaderboard-old/details_princeton-nlp__Sheared-Pythia-160m

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是在评估模型princeton-nlp/Sheared-Pythia-160m时自动创建的，主要用于Open LLM Leaderboard的评估任务。数据集包含63个配置，每个配置对应一个评估任务。数据集由1次运行生成，每次运行的结果存储为特定配置中的一个分割，分割名称使用运行的时间戳。train分割始终指向最新的结果。此外，还有一个名为results的配置，存储了所有运行的聚合结果，并用于计算和显示Open LLM Leaderboard上的聚合指标。

提供机构：

open-llm-leaderboard-old

原始信息汇总

数据集概述

数据集简介

该数据集是在评估模型 princeton-nlp/Sheared-Pythia-160m 在 Open LLM Leaderboard 上的运行过程中自动创建的。

数据集组成

数据集包含 63 个配置，每个配置对应一个评估任务。
数据集由 1 次运行创建，每次运行的详细结果可以在每个配置的特定分片中找到，分片名称使用运行的时间戳。
"train" 分片始终指向最新的结果。
一个额外的配置 "results" 存储所有运行的聚合结果，用于计算和显示 Open LLM Leaderboard 上的聚合指标。

数据加载示例

python from datasets import load_dataset data = load_dataset("open-llm-leaderboard/details_princeton-nlp__Sheared-Pythia-160m", "harness_winogrande_5", split="train")

最新结果

以下是 2024-03-05T11:51:47.160529 运行的最新结果： python { "all": { "acc": 0.265486732132447, "acc_stderr": 0.03103900531467752, "acc_norm": 0.2667178847012967, "acc_norm_stderr": 0.03183921317983812, "mc1": 0.23623011015911874, "mc1_stderr": 0.014869755015871112, "mc2": 0.4322455282459343, "mc2_stderr": 0.015239085992311467 }, "harness|arc:challenge|25": { "acc": 0.1885665529010239, "acc_stderr": 0.011430897647675815, "acc_norm": 0.22440273037542663, "acc_norm_stderr": 0.012191404938603833 }, "harness|hellaswag|10": { "acc": 0.2940649273053177, "acc_stderr": 0.004546901132945137, "acc_norm": 0.32065325632344155, "acc_norm_stderr": 0.0046577383989009355 }, "harness|hendrycksTest-abstract_algebra|5": { "acc": 0.18, "acc_stderr": 0.03861229196653695, "acc_norm": 0.18, "acc_norm_stderr": 0.03861229196653695 }, "harness|hendrycksTest-anatomy|5": { "acc": 0.35555555555555557, "acc_stderr": 0.04135176749720385, "acc_norm": 0.35555555555555557, "acc_norm_stderr": 0.04135176749720385 }, "harness|hendrycksTest-astronomy|5": { "acc": 0.17105263157894737, "acc_stderr": 0.030643607071677084, "acc_norm": 0.17105263157894737, "acc_norm_stderr": 0.030643607071677084 }, "harness|hendrycksTest-business_ethics|5": { "acc": 0.3, "acc_stderr": 0.046056618647183814, "acc_norm": 0.3, "acc_norm_stderr": 0.046056618647183814 }, "harness|hendrycksTest-clinical_knowledge|5": { "acc": 0.2792452830188679, "acc_stderr": 0.027611163402399715, "acc_norm": 0.2792452830188679, "acc_norm_stderr": 0.027611163402399715 }, "harness|hendrycksTest-college_biology|5": { "acc": 0.2638888888888889, "acc_stderr": 0.03685651095897532, "acc_norm": 0.2638888888888889, "acc_norm_stderr": 0.03685651095897532 }, "harness|hendrycksTest-college_chemistry|5": { "acc": 0.24, "acc_stderr": 0.042923469599092816, "acc_norm": 0.24, "acc_norm_stderr": 0.042923469599092816 }, "harness|hendrycksTest-college_computer_science|5": { "acc": 0.34, "acc_stderr": 0.04760952285695236, "acc_norm": 0.34, "acc_norm_stderr": 0.04760952285695236 }, "harness|hendrycksTest-college_mathematics|5": { "acc": 0.22, "acc_stderr": 0.041633319989322695, "acc_norm": 0.22, "acc_norm_stderr": 0.041633319989322695 }, "harness|hendrycksTest-college_medicine|5": { "acc": 0.24277456647398843, "acc_stderr": 0.0326926380614177, "acc_norm": 0.24277456647398843, "acc_norm_stderr": 0.0326926380614177 }, "harness|hendrycksTest-college_physics|5": { "acc": 0.21568627450980393, "acc_stderr": 0.04092563958237654, "acc_norm": 0.21568627450980393, "acc_norm_stderr": 0.04092563958237654 }, "harness|hendrycksTest-computer_security|5": { "acc": 0.23, "acc_stderr": 0.042295258468165044, "acc_norm": 0.23, "acc_norm_stderr": 0.042295258468165044 }, "harness|hendrycksTest-conceptual_physics|5": { "acc": 0.24680851063829787, "acc_stderr": 0.0281854413012341, "acc_norm": 0.24680851063829787, "acc_norm_stderr": 0.0281854413012341 }, "harness|hendrycksTest-econometrics|5": { "acc": 0.23684210526315788, "acc_stderr": 0.039994238792813344, "acc_norm": 0.23684210526315788, "acc_norm_stderr": 0.039994238792813344 }, "harness|hendrycksTest-electrical_engineering|5": { "acc": 0.21379310344827587, "acc_stderr": 0.03416520447747549, "acc_norm": 0.21379310344827587, "acc_norm_stderr": 0.03416520447747549 }, "harness|hendrycksTest-elementary_mathematics|5": { "acc": 0.24338624338624337, "acc_stderr": 0.022101128787415426, "acc_norm": 0.24338624338624337, "acc_norm_stderr": 0.022101128787415426 }, "harness|hendrycksTest-formal_logic|5": { "acc": 0.19047619047619047, "acc_stderr": 0.035122074123020534, "acc_norm": 0.19047619047619047, "acc_norm_stderr": 0.035122074123020534 }, "harness|hendrycksTest-global_facts|5": { "acc": 0.21, "acc_stderr": 0.040936018074033256, "acc_norm": 0.21, "acc_norm_stderr": 0.040936018074033256 }, "harness|hendrycksTest-high_school_biology|5": { "acc": 0.3096774193548387, "acc_stderr": 0.026302774983517414, "acc_norm": 0.3096774193548387, "acc_norm_stderr": 0.026302774983517414 }, "harness|hendrycksTest-high_school_chemistry|5": { "acc": 0.2413793103448276, "acc_stderr": 0.030108330718011625, "acc_norm": 0.2413793103448276, "acc_norm_stderr": 0.030108330718011625 }, "harness|hendrycksTest-high_school_computer_science|5": { "acc": 0.33, "acc_stderr": 0.04725815626252605, "acc_norm": 0.33, "acc_norm_stderr": 0.04725815626252605 }, "harness|hendrycksTest-high_school_european_history|5": { "acc": 0.21818181818181817, "acc_stderr": 0.03225078108306289, "acc_norm": 0.21818181818181817, "acc_norm_stderr": 0.03225078108306289 }, "harness|hendrycksTest-high_school_geography|5": { "acc": 0.3383838383838384, "acc_stderr": 0.03371124142626303, "acc_norm": 0.3383838383838384, "acc_norm_stderr": 0.03371124142626303 }, "harness|hendrycksTest-high_school_government_and_politics|5": { "acc": 0.35751295336787564, "acc_stderr": 0.034588160421810045, "acc_norm": 0.35751295336787564, "acc_norm_stderr": 0.034588160421810045 }, "harness|hendrycksTest-high_school_macroeconomics|5": { "acc": 0.3564102564102564, "acc_stderr": 0.024283140529467295, "acc_norm": 0.3564102564102564, "acc_norm_stderr": 0.024283140529467295 }, "harness|hendrycksTest-high_school_mathematics|5": { "acc": 0.26296296296296295, "acc_stderr": 0.0268420578

搜集汇总

数据集介绍

构建方式

在大规模语言模型评估的背景下，该数据集是围绕princeton-nlp/Sheared-Pythia-160m模型在Open LLM Leaderboard上的自动化评估过程生成的。其构建核心在于将一次完整的评估运行拆解为63个独立配置，每一个配置精准对应一个被评测的任务，例如ARC挑战、HellaSwag、GSM8K及涵盖多学科的Hendrycks测试集。每个配置内包含以评估时间戳命名的数据分割，而“train”分割则始终指向最新一次运行的结果。此外，一个名为“results”的独立配置被专门创建，用于聚合所有任务的评估指标，为排行榜上综合分数的计算与展示提供数据基础。所有数据以Parquet格式存储，确保高效存取。

特点

该数据集最显著的特征在于其精细化的任务粒度与时间序列追踪能力。通过将63个任务各自独立为配置，研究者能够精准定位到特定任务（如winogrande或truthfulqa）的详细评估结果，而非仅获取宏观平均值。每个配置内部保留了历史运行的时间戳分割，使得模型性能的纵向对比成为可能，为分析模型在多次评估中的稳定性或改进趋势提供了宝贵资源。同时，“train”分割作为动态更新的最新结果指针，确保了数据集的实时性。这种结构不仅服务于排行榜的公开展示，也为深入剖析模型在多样化基准上的表现提供了结构化、可复现的数据支持。

使用方法

使用该数据集时，研究者可通过HuggingFace的datasets库进行便捷加载。例如，调用load_dataset函数并指定数据集名称、目标任务配置（如"harness_winogrande_5"）以及所需的分割（如"train"），即可获取对应任务的最新评估细节。若需回溯历史结果，可通过加载以具体时间戳命名的分割来实现。对于希望获取模型整体性能的场合，直接加载“results”配置即可获得所有任务的聚合指标。这种设计使得数据集的调用方式高度灵活，既支持对单一任务的微观分析，也支持对模型整体能力的宏观评估，满足了从模型调试到排行榜提交等多种应用场景的需求。

背景与挑战

背景概述

在大型语言模型（LLM）领域，模型评估的标准化与可复现性始终是推动技术演进的关键基石。由普林斯顿NLP团队于2023年提出的Sheared-Pythia-160m模型，通过结构化剪枝技术从Pythia-1.4B中提取轻量化架构，旨在探索参数高效模型在资源受限场景下的性能边界。该数据集诞生于HuggingFace Open LLM Leaderboard评估框架，由HuggingFace团队于2024年3月创建，通过自动化流水线记录模型在63项任务（涵盖ARC挑战、HellaSwag、MMLU、GSM8K等）上的细粒度评测结果。其核心研究问题聚焦于：剪枝后的160M参数模型是否能在常识推理、数学解题及多学科知识问答中保持竞争力。该数据集不仅为模型压缩领域提供了可量化的基准，更通过标准化评测流程推动了LLM评估范式的透明化进程。

当前挑战

该数据集面临的核心挑战体现在两个维度：其一，Sheared-Pythia-160m作为轻量模型，在GSM8K数学推理任务中准确率仅0.38%，而ARC挑战的标准化准确率也仅22.4%，揭示了小参数模型在复杂推理与知识密集型任务中的结构性瓶颈——如何通过剪枝策略保留关键神经元以平衡效率与性能，仍是领域难题。其二，数据集构建过程中，需将63个异构任务（如MMLU的57个学科子集与TruthfulQA的对抗性问答）统一至Parquet格式并确保评估指标的兼容性，同时处理不同任务间的随机种子对齐与结果聚合逻辑差异。此外，自动化流水线需应对模型输出长度波动导致的解码截断问题，以及多轮评测中时间戳分片的数据管理复杂性，这对评估框架的鲁棒性提出了严苛要求。

常用场景

经典使用场景

该数据集是Open LLM Leaderboard对Princeton NLP团队提出的Sheared-Pythia-160m模型进行自动化评估的产物，其核心用途在于系统性地记录和复现该模型在63个多样化自然语言理解任务上的性能表现。通过整合ARC-Challenge、HellaSwag、GSM8K、MMLU及TruthfulQA等基准测试的细粒度结果，研究者能够深入剖析这一经过结构化剪枝的小型语言模型在常识推理、数学求解与知识问答等维度上的能力边界。数据集采用按时间戳划分的独立运行快照结构，便于追踪模型性能的演进轨迹，为理解模型压缩技术对下游任务泛化能力的影响提供了标准化分析框架。

实际应用

在实际产业部署中，该数据集为资源受限场景下的模型选型提供了关键决策依据。例如，当需要在移动设备或边缘计算节点上运行轻量级语言模型时，开发者可依据Sheared-Pythia-160m在Winogrande任务上51.7%的准确率，评估其在指代消解场景中的可用性。同时，数据集对MMLU子领域（如医学、法律）的细粒度评分，使医疗问答系统或法律文书分析工具的开发团队能够预判模型在专业垂直领域的表现短板。这些量化指标直接指导了模型蒸馏、量化压缩等工程化优化策略的优先级排序，加速了高效自然语言处理应用的落地进程。

衍生相关工作

该数据集直接催生了一系列围绕模型评估标准化与压缩算法验证的衍生研究。基于其提供的多任务基准对比，后续工作如《Sheared Pythia: Structured Pruning for Efficient Language Models》系统阐述了剪枝策略对模型行为的影响。此外，数据集的结构化格式被Open LLM Leaderboard社区广泛采纳，成为评估Pythia系列及其他压缩模型（如TinyBERT、DistilBERT）性能的参照系。研究者也利用其细粒度结果开发了新的模型诊断工具，例如通过分析ARC-Challenge与HellaSwag上的偏差模式来优化剪枝阶段的训练目标，从而推动高效语言模型设计理论的持续演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集