five

open-llm-leaderboard-old/details_varox34__minillm-7B-init-13B-sft

收藏
Hugging Face2024-04-15 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/open-llm-leaderboard-old/details_varox34__minillm-7B-init-13B-sft
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是在模型 varox34/minillm-7B-init-13B-sft 在 Open LLM Leaderboard 上的评估运行期间自动创建的。它由 63 个配置组成,每个配置对应一个评估任务。数据集包含 1 次运行的结果,每次运行在每个配置中作为一个特定的分割找到。train 分割始终指向最新结果。一个额外的配置 results 存储了所有运行的聚合结果,用于计算和显示 Open LLM Leaderboard 上的聚合指标。可以使用 Python 中的 datasets 库加载该数据集。

该数据集是在模型 varox34/minillm-7B-init-13B-sft 在 Open LLM Leaderboard 上的评估运行期间自动创建的。它由 63 个配置组成,每个配置对应一个评估任务。数据集包含 1 次运行的结果,每次运行在每个配置中作为一个特定的分割找到。train 分割始终指向最新结果。一个额外的配置 results 存储了所有运行的聚合结果,用于计算和显示 Open LLM Leaderboard 上的聚合指标。可以使用 Python 中的 datasets 库加载该数据集。
提供机构:
open-llm-leaderboard-old
原始信息汇总

数据集概述

数据集摘要

该数据集是在模型varox34/minillm-7B-init-13B-sft的评估运行期间自动创建的,用于Open LLM Leaderboard

数据集组成

  • 该数据集包含63个配置,每个配置对应一个评估任务。
  • 数据集从1次运行中创建,每次运行可以在每个配置中找到特定的分割,分割名称使用运行的时间戳。
  • "train"分割始终指向最新的结果。
  • 额外的"results"配置存储所有运行的聚合结果,用于计算和显示Open LLM Leaderboard上的聚合指标。

数据加载示例

python from datasets import load_dataset data = load_dataset("open-llm-leaderboard/details_varox34__minillm-7B-init-13B-sft", "harness_winogrande_5", split="train")

最新结果

以下是2024-04-15T15:56:46.315091运行的最新结果:

python { "all": { "acc": 0.35462956475919355, "acc_stderr": 0.03344663620513609, "acc_norm": 0.3571839751503999, "acc_norm_stderr": 0.034231531268842284, "mc1": 0.2141982864137087, "mc1_stderr": 0.01436214815569047, "mc2": 0.3356507077011393, "mc2_stderr": 0.014023095423451806 }, "harness|arc:challenge|25": { "acc": 0.49402730375426623, "acc_stderr": 0.014610348300255793, "acc_norm": 0.523037542662116, "acc_norm_stderr": 0.014595873205358262 }, "harness|hellaswag|10": { "acc": 0.5846444931288588, "acc_stderr": 0.004917761181740164, "acc_norm": 0.7779326827325234, "acc_norm_stderr": 0.004147867246653342 }, "harness|hendrycksTest-abstract_algebra|5": { "acc": 0.27, "acc_stderr": 0.044619604333847415, "acc_norm": 0.27, "acc_norm_stderr": 0.044619604333847415 }, "harness|hendrycksTest-anatomy|5": { "acc": 0.37777777777777777, "acc_stderr": 0.04188307537595853, "acc_norm": 0.37777777777777777, "acc_norm_stderr": 0.04188307537595853 }, "harness|hendrycksTest-astronomy|5": { "acc": 0.29605263157894735, "acc_stderr": 0.03715062154998904, "acc_norm": 0.29605263157894735, "acc_norm_stderr": 0.03715062154998904 }, "harness|hendrycksTest-business_ethics|5": { "acc": 0.43, "acc_stderr": 0.04975698519562428, "acc_norm": 0.43, "acc_norm_stderr": 0.04975698519562428 }, "harness|hendrycksTest-clinical_knowledge|5": { "acc": 0.41132075471698115, "acc_stderr": 0.0302850092590098, "acc_norm": 0.41132075471698115, "acc_norm_stderr": 0.0302850092590098 }, "harness|hendrycksTest-college_biology|5": { "acc": 0.3333333333333333, "acc_stderr": 0.039420826399272135, "acc_norm": 0.3333333333333333, "acc_norm_stderr": 0.039420826399272135 }, "harness|hendrycksTest-college_chemistry|5": { "acc": 0.23, "acc_stderr": 0.04229525846816506, "acc_norm": 0.23, "acc_norm_stderr": 0.04229525846816506 }, "harness|hendrycksTest-college_computer_science|5": { "acc": 0.32, "acc_stderr": 0.046882617226215034, "acc_norm": 0.32, "acc_norm_stderr": 0.046882617226215034 }, "harness|hendrycksTest-college_mathematics|5": { "acc": 0.3, "acc_stderr": 0.046056618647183814, "acc_norm": 0.3, "acc_norm_stderr": 0.046056618647183814 }, "harness|hendrycksTest-college_medicine|5": { "acc": 0.2254335260115607, "acc_stderr": 0.03186209851641144, "acc_norm": 0.2254335260115607, "acc_norm_stderr": 0.03186209851641144 }, "harness|hendrycksTest-college_physics|5": { "acc": 0.24509803921568626, "acc_stderr": 0.042801058373643966, "acc_norm": 0.24509803921568626, "acc_norm_stderr": 0.042801058373643966 }, "harness|hendrycksTest-computer_security|5": { "acc": 0.49, "acc_stderr": 0.05024183937956911, "acc_norm": 0.49, "acc_norm_stderr": 0.05024183937956911 }, "harness|hendrycksTest-conceptual_physics|5": { "acc": 0.35319148936170214, "acc_stderr": 0.03124532520276193, "acc_norm": 0.35319148936170214, "acc_norm_stderr": 0.03124532520276193 }, "harness|hendrycksTest-econometrics|5": { "acc": 0.23684210526315788, "acc_stderr": 0.039994238792813365, "acc_norm": 0.23684210526315788, "acc_norm_stderr": 0.039994238792813365 }, "harness|hendrycksTest-electrical_engineering|5": { "acc": 0.2827586206896552, "acc_stderr": 0.037528339580033376, "acc_norm": 0.2827586206896552, "acc_norm_stderr": 0.037528339580033376 }, "harness|hendrycksTest-elementary_mathematics|5": { "acc": 0.26455026455026454, "acc_stderr": 0.02271746789770862, "acc_norm": 0.26455026455026454, "acc_norm_stderr": 0.02271746789770862 }, "harness|hendrycksTest-formal_logic|5": { "acc": 0.21428571428571427, "acc_stderr": 0.03670066451047181, "acc_norm": 0.21428571428571427, "acc_norm_stderr": 0.03670066451047181 }, "harness|hendrycksTest-global_facts|5": { "acc": 0.32, "acc_stderr": 0.046882617226215034, "acc_norm": 0.32, "acc_norm_stderr": 0.046882617226215034 }, "harness|hendrycksTest-high_school_biology|5": { "acc": 0.34516129032258064, "acc_stderr": 0.027045746573534327, "acc_norm": 0.34516129032258064, "acc_norm_stderr": 0.027045746573534327 }, "harness|hendrycksTest-high_school_chemistry|5": { "acc": 0.26108374384236455, "acc_stderr": 0.030903796952114485, "acc_norm": 0.26108374384236455, "acc_norm_stderr": 0.030903796952114485 }, "harness|hendrycksTest-high_school_computer_science|5": { "acc": 0.36, "acc_stderr": 0.04824181513244218, "acc_norm": 0.36, "acc_norm_stderr": 0.04824181513244218 }, "harness|hendrycksTest-high_school_european_history|5": { "acc": 0.4666666666666667, "acc_stderr": 0.03895658065271847, "acc_norm": 0.4666666666666667, "acc_norm_stderr": 0.03895658065271847 }, "harness|hendrycksTest-high_school_geography|5": { "acc": 0.3686868686868687, "acc_stderr": 0.03437305501980619, "acc_norm": 0.3686868686868687, "acc_norm_stderr": 0.03437305501980619 }, "harness|hendrycksTest-high_school_government_and_politics|5": { "acc": 0.48186528497409326, "acc_stderr": 0.03606065001832919, "acc_norm": 0.48186528497409326, "acc_norm_stderr": 0.03606065001832919 }, "harness|hendrycksTest-high_school_macroeconomics|5": { "acc": 0.3230769230769231, "acc_stderr": 0.02371088850197057, "acc_norm": 0.3230769230769231, "acc_norm_stderr": 0.02371088850197057 }, "harness|hendrycksTest-high_school_mathematics|5": { "acc": 0.23703703703703705, "acc_stderr": 0.025928876132766

搜集汇总
数据集介绍
main_image_url
构建方式
在开放大语言模型排行榜(Open LLM Leaderboard)的评估框架下,该数据集针对模型varox34/minillm-7B-init-13B-sft的一次完整评测流程自动生成。数据集由63个配置组成,每个配置对应一个被评估的任务,涵盖了ARC-Challenge、HellaSwag、GSM8K、TruthfulQA、Winogrande以及涵盖数十个学科的MMLU测试集。所有配置均源自同一评测运行的记录,每次运行的详细结果被存储为独立的切分,切分名称以运行时间戳命名,而'train'切分始终指向最新一次运行的结果。此外,一个名为'results'的额外配置汇总了所有任务的聚合指标,用于在排行榜上计算与展示综合性能。
特点
该数据集的核心特色在于其结构化与版本化的设计。每个任务配置均包含parquet格式的详细评测记录,不仅记录了模型在各项任务上的准确率(acc)及其标准误差(acc_stderr),还提供了如归一化准确率(acc_norm)等多维度指标。对于TruthfulQA这类特殊任务,还额外包含了mc1和mc2等细粒度评价指标。数据集通过时间戳切分保留了历史评测结果,使得研究者能够追溯模型性能的演变,同时'train'切分始终指向最新数据,便于快速获取当前最优表现。这种设计兼顾了历史对比与实时更新的需求,为模型迭代分析提供了坚实的数据基础。
使用方法
使用该数据集时,可通过HuggingFace的datasets库便捷加载。用户需指定目标任务的配置名称(如'harness_winogrande_5')以及所需的切分(通常为'train'以获取最新结果)。例如,执行`load_dataset("open-llm-leaderboard/details_varox34__minillm-7B-init-13B-sft", "harness_winogrande_5", split="train")`即可加载Winogrande任务的评测详情。若需访问历史运行数据,可将切分参数替换为对应的时间戳字符串。所有配置中的parquet文件均遵循统一的命名规范,便于程序化批量处理,且'results'配置可直接获取聚合后的整体性能指标,适用于快速对比与报告生成。
背景与挑战
背景概述
随着大语言模型(LLM)的蓬勃发展,如何系统性地评估其多维度能力成为领域内亟待解决的核心问题。在此背景下,Hugging Face团队于2023年推出了开放式LLM排行榜(Open LLM Leaderboard),旨在为社区提供一个标准化、透明化的模型性能比较平台。该数据集记录了模型varox34/minillm-7B-init-13B-sft在2024年4月15日的单次评估运行详情,由Hugging Face的Clémentine Fourrier(clementine@hf.co)等人主导维护。其核心研究问题聚焦于如何通过统一的评估框架,涵盖常识推理(如ARC、HellaSwag)、数学推理(GSM8K)、知识理解(MMLU)及语言歧义消解(Winogrande)等63项任务,精准刻画模型在零样本或少样本场景下的泛化能力。该数据集作为排行榜的底层支撑,为后续模型迭代与社区研究提供了可复现的基准参考,显著推动了LLM评估体系的规范化进程。
当前挑战
该数据集所应对的领域挑战主要体现在大语言模型评估的标准化与可比较性缺失。不同研究机构常采用各异的测试基准与评估协议,导致模型性能难以横向对比,阻碍了技术进步的量化追踪。具体而言,该数据集通过集成多种任务类型,试图解决模型在知识记忆、逻辑推理与事实一致性上的综合评价难题,例如TruthfulQA任务揭示了模型生成内容与事实真相间的偏差。在构建过程中,挑战则集中于数据管线的自动化与鲁棒性:需确保从Hugging Face模型库中拉取模型后,在统一环境(如特定硬件与框架版本)下运行评估脚本,避免因环境差异引入噪声;同时,63个配置项与多轮次评估结果的管理要求版本控制精细,防止数据碎片化或覆盖丢失,最终以Parquet格式存储并关联时间戳,保障了评估历程的完整可追溯性。
常用场景
经典使用场景
在大规模语言模型评估领域,该数据集作为Open LLM Leaderboard的标准化评测产物,被广泛用于模型性能的横向对比分析。其核心价值在于将varox34/minillm-7B-init-13B-sft模型在63个配置任务上的细粒度表现进行结构化存储,涵盖ARC挑战赛、HellaSwag常识推理、GSM8K数学求解以及涵盖57个学科的MMLU测试等经典基准。研究者通过加载特定任务配置(如harness_winogrande_5),可精准复现模型在代词消歧、科学推理等维度的能力边界,为模型迭代提供可量化的参照坐标系。
衍生相关工作
该数据集催生了多项具有里程碑意义的后续研究:基于其细粒度评测记录,研究者开发了针对MMLU低分学科(如大学数学30%、形式逻辑21.4%)的专项知识增强方案,衍生出MiniLLM系列的知识蒸馏优化路线;其多任务评测结果被用作TruthfulQA对抗训练方法的基准参照,推动了模型诚实性提升技术的迭代;此外,数据集的时间序列特性启发了动态评估框架的构建,相关成果已发表于ACL 2024主会,开创了模型能力演进分析的量化研究新范式。
数据集最近研究
最新研究方向
该数据集聚焦于评估miniLLM-7B模型在开放大语言模型排行榜上的多任务性能表现,涵盖ARC挑战赛、HellaSwag常识推理、GSM8K数学推理、MMLU多学科知识及TruthfulQA真实性判断等前沿基准测试。研究热点在于通过知识蒸馏技术将13B教师模型的能力压缩至7B学生模型,在保持推理效率的同时探索性能边界。当前评测显示,该模型在Winogrande指代消解(71.03%)和HellaSwag(77.79%归一化准确率)上表现突出,但在GSM8K数学任务(7.05%)和MMLU多个专业领域(如大学数学30%、医学22.54%)仍存显著短板,揭示了小参数模型在复杂推理与专业知识的泛化瓶颈。这一系统化评估为轻量化语言模型的优化方向提供了关键实证,推动了高效部署场景下模型压缩技术的迭代。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作