open-llm-leaderboard-old/details_CausalLM__72B-preview-canary-llamafied-qwen-llamafy-unbias-qkv

Name: open-llm-leaderboard-old/details_CausalLM__72B-preview-canary-llamafied-qwen-llamafy-unbias-qkv
Creator: open-llm-leaderboard-old
Published: 2024-01-06 10:52:28
License: 暂无描述

Hugging Face2024-01-06 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/open-llm-leaderboard-old/details_CausalLM__72B-preview-canary-llamafied-qwen-llamafy-unbias-qkv

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是在模型 CausalLM/72B-preview-canary-llamafied-qwen-llamafy-unbias-qkv 在 Open LLM Leaderboard 上的评估运行期间自动创建的。数据集由 63 个配置组成，每个配置对应一个评估任务。它由 2 次运行创建，每次运行在每个配置中表示为特定的拆分。train 拆分始终指向最新结果。一个名为 results 的额外配置存储了所有运行的聚合结果，这些结果用于计算和显示 Open LLM Leaderboard 上的聚合指标。README 还提供了如何使用 Python 中的 datasets 库加载运行中的详细信息的示例。

提供机构：

open-llm-leaderboard-old

原始信息汇总

数据集概述

数据集简介

该数据集是在模型CausalLM/72B-preview-canary-llamafied-qwen-llamafy-unbias-qkv的评估运行期间自动创建的，用于Open LLM Leaderboard。

数据集结构

配置数量：63个配置，每个配置对应一个评估任务。
运行次数：数据集由2次运行创建，每次运行在每个配置中作为一个特定的分割存在，分割名称使用运行的时间戳。
最新结果："train"分割始终指向最新的结果。
结果汇总：一个额外的配置"results"存储所有运行的汇总结果，用于计算和显示Open LLM Leaderboard上的聚合指标。

数据加载示例

python from datasets import load_dataset data = load_dataset("open-llm-leaderboard/details_CausalLM__72B-preview-canary-llamafied-qwen-llamafy-unbias-qkv", "harness_winogrande_5", split="train")

最新结果

以下是2024-01-06T10:49:51.922968运行的最新结果：

python { "all": { "acc": 0.6646054440358954, "acc_stderr": 0.03179887695147788, "acc_norm": 0.6712216491861255, "acc_norm_stderr": 0.03244437835929297, "mc1": 0.423500611995104, "mc1_stderr": 0.017297421448534727, "mc2": 0.5761008495230423, "mc2_stderr": 0.015574886099425339 }, "harness|arc:challenge|25": { "acc": 0.48890784982935154, "acc_stderr": 0.01460779491401306, "acc_norm": 0.5255972696245734, "acc_norm_stderr": 0.014592230885298966 }, "harness|hellaswag|10": { "acc": 0.4992033459470225, "acc_stderr": 0.0049897750778356495, "acc_norm": 0.6298546106353317, "acc_norm_stderr": 0.004818566366066922 }, "harness|hendrycksTest-abstract_algebra|5": { "acc": 0.31, "acc_stderr": 0.04648231987117316, "acc_norm": 0.31, "acc_norm_stderr": 0.04648231987117316 }, "harness|hendrycksTest-anatomy|5": { "acc": 0.5851851851851851, "acc_stderr": 0.04256193767901408, "acc_norm": 0.5851851851851851, "acc_norm_stderr": 0.04256193767901408 }, "harness|hendrycksTest-astronomy|5": { "acc": 0.756578947368421, "acc_stderr": 0.034923496688842384, "acc_norm": 0.756578947368421, "acc_norm_stderr": 0.034923496688842384 }, "harness|hendrycksTest-business_ethics|5": { "acc": 0.7, "acc_stderr": 0.046056618647183814, "acc_norm": 0.7, "acc_norm_stderr": 0.046056618647183814 }, "harness|hendrycksTest-clinical_knowledge|5": { "acc": 0.7358490566037735, "acc_stderr": 0.02713429162874171, "acc_norm": 0.7358490566037735, "acc_norm_stderr": 0.02713429162874171 }, "harness|hendrycksTest-college_biology|5": { "acc": 0.7847222222222222, "acc_stderr": 0.03437079344106135, "acc_norm": 0.7847222222222222, "acc_norm_stderr": 0.03437079344106135 }, "harness|hendrycksTest-college_chemistry|5": { "acc": 0.5, "acc_stderr": 0.050251890762960605, "acc_norm": 0.5, "acc_norm_stderr": 0.050251890762960605 }, "harness|hendrycksTest-college_computer_science|5": { "acc": 0.58, "acc_stderr": 0.049604496374885836, "acc_norm": 0.58, "acc_norm_stderr": 0.049604496374885836 }, "harness|hendrycksTest-college_mathematics|5": { "acc": 0.49, "acc_stderr": 0.05024183937956912, "acc_norm": 0.49, "acc_norm_stderr": 0.05024183937956912 }, "harness|hendrycksTest-college_medicine|5": { "acc": 0.6705202312138728, "acc_stderr": 0.03583901754736412, "acc_norm": 0.6705202312138728, "acc_norm_stderr": 0.03583901754736412 }, "harness|hendrycksTest-college_physics|5": { "acc": 0.39215686274509803, "acc_stderr": 0.04858083574266345, "acc_norm": 0.39215686274509803, "acc_norm_stderr": 0.04858083574266345 }, "harness|hendrycksTest-computer_security|5": { "acc": 0.74, "acc_stderr": 0.044084400227680794, "acc_norm": 0.74, "acc_norm_stderr": 0.044084400227680794 }, "harness|hendrycksTest-conceptual_physics|5": { "acc": 0.6553191489361702, "acc_stderr": 0.03106898596312215, "acc_norm": 0.6553191489361702, "acc_norm_stderr": 0.03106898596312215 }, "harness|hendrycksTest-econometrics|5": { "acc": 0.47368421052631576, "acc_stderr": 0.04697085136647863, "acc_norm": 0.47368421052631576, "acc_norm_stderr": 0.04697085136647863 }, "harness|hendrycksTest-electrical_engineering|5": { "acc": 0.5655172413793104, "acc_stderr": 0.04130740879555498, "acc_norm": 0.5655172413793104, "acc_norm_stderr": 0.04130740879555498 }, "harness|hendrycksTest-elementary_mathematics|5": { "acc": 0.5608465608465608, "acc_stderr": 0.02555992055053101, "acc_norm": 0.5608465608465608, "acc_norm_stderr": 0.02555992055053101 }, "harness|hendrycksTest-formal_logic|5": { "acc": 0.38095238095238093, "acc_stderr": 0.043435254289490965, "acc_norm": 0.38095238095238093, "acc_norm_stderr": 0.043435254289490965 }, "harness|hendrycksTest-global_facts|5": { "acc": 0.43, "acc_stderr": 0.04975698519562428, "acc_norm": 0.43, "acc_norm_stderr": 0.04975698519562428 }, "harness|hendrycksTest-high_school_biology|5": { "acc": 0.7741935483870968, "acc_stderr": 0.023785577884181012, "acc_norm": 0.7741935483870968, "acc_norm_stderr": 0.023785577884181012 }, "harness|hendrycksTest-high_school_chemistry|5": { "acc": 0.5862068965517241, "acc_stderr": 0.03465304488406795, "acc_norm": 0.5862068965517241, "acc_norm_stderr": 0.03465304488406795 }, "harness|hendrycksTest-high_school_computer_science|5": { "acc": 0.81, "acc_stderr": 0.039427724440366234, "acc_norm": 0.81, "acc_norm_stderr": 0.039427724440366234 }, "harness|hendrycksTest-high_school_european_history|5": { "acc": 0.8242424242424242, "acc_stderr": 0.02972094300622445, "acc_norm": 0.8242424242424242, "acc_norm_stderr": 0.02972094300622445 }, "harness|hendrycksTest-high_school_geography|5": { "acc": 0.8535353535353535, "acc_stderr": 0.025190921114603918, "acc_norm": 0.8535353535353535, "acc_norm_stderr": 0.025190921114603918 }, "harness|hendrycksTest-high_school_government_and_politics|5": { "acc": 0.9430051813471503, "acc_stderr": 0.016731085293607555, "acc_norm": 0.9430051813471503, "acc_norm_stderr": 0.016731085293607555 }, "harness|hendrycksTest-high_school_macroeconomics|5": { "acc": 0.6974358974358974, "acc_stderr": 0.02329088805377272, "acc_norm": 0.6974358974358974, "acc_norm_stderr": 0.02329088805377272 }, "harness|hendrycksTest-high_school_mathematics|5": { "acc": 0.46296

搜集汇总

数据集介绍

构建方式

在大型语言模型评估领域，该数据集作为Open LLM Leaderboard评估流程的自动化产物而构建。其核心机制在于，当特定模型在排行榜上进行评测时，系统自动捕获并结构化其在不同任务上的详细表现数据。数据集通过两次独立的运行生成，每次运行对应一个时间戳分割，最终形成涵盖63种评测配置的完整集合。每个配置精确对应一项评测任务，例如ARC挑战赛或Hellaswag，确保了数据维度的全面性与专业性。

使用方法

研究人员可通过Hugging Face的`datasets`库便捷地加载此数据集。使用方式具有高度灵活性，用户需指定数据集名称、目标配置（如`harness_winogrande_5`）以及所需的分割（例如“train”代表最新结果）。这种设计允许研究者深入探究模型在特定子任务上的表现细节，或通过聚合配置进行整体性能评估，为模型对比、能力诊断及基准研究提供了结构化的数据基础。

背景与挑战

背景概述

在大型语言模型（LLM）迅猛发展的背景下，评估其综合能力成为人工智能领域的关键议题。Open LLM Leaderboard作为HuggingFace平台推出的权威评测基准，旨在系统化地衡量不同模型在多样化任务上的表现。数据集‘open-llm-leaderboard-old/details_CausalLM__72B-preview-canary-llamafied-qwen-llamafy-unbias-qkv’正是该排行榜的产物，它记录了特定模型在2024年初的详细评测结果。该数据集由HuggingFace团队创建，核心研究问题聚焦于量化大型语言模型在常识推理、专业知识、数学计算及真实性等多维度的性能，为模型比较与优化提供了实证基础，推动了开源模型生态的透明化与进步。

当前挑战

该数据集所应对的领域挑战在于，大型语言模型的评估本身即是一个复杂问题，需要覆盖广泛且异构的任务以全面反映模型能力。具体而言，评测需克服模型在专业领域知识（如抽象代数、临床医学）上的深度理解不足、数学推理的精确性欠缺，以及生成内容可能存在的事实性偏差等难题。在构建过程中，挑战体现在如何高效集成多达63项异构评测任务的数据流，确保每次运行结果的时间戳分割与版本管理的准确性，并设计可靠的数据聚合机制以生成具有统计意义的综合指标，同时维持数据集的轻量级与易访问性。

常用场景

经典使用场景

在大型语言模型评估领域，该数据集作为Open LLM Leaderboard的评估运行产物，其经典使用场景在于为研究人员提供模型CausalLM/72B-preview-canary-llamafied-qwen-llamafy-unbias-qkv在多样化基准测试中的详尽性能数据。通过涵盖ARC挑战赛、HellaSwag、MMLU以及TruthfulQA等63项任务配置，该数据集能够系统性地衡量模型在常识推理、知识问答、数学解题及真实性判断等多维度的能力表现，为模型间的横向对比与性能剖析奠定了数据基础。

解决学术问题

该数据集有效解决了大语言模型评估中标准化与可复现性的核心学术问题。通过整合多个权威评测任务并记录详细的运行结果，它使得研究者能够超越单一指标，从细粒度视角分析模型在不同领域知识、推理难度及任务类型上的表现差异。其意义在于构建了一个透明、可追溯的评估框架，促进了模型性能研究的科学严谨性，并为理解模型能力边界与偏差来源提供了实证依据。

实际应用

在实际应用层面，该数据集直接服务于模型选型与部署决策。企业或开发者在为特定领域（如教育、医疗、法律）选择大语言模型时，可依据数据集中对应学科（如临床知识、专业法律、大学物理）的评测结果，量化评估模型的适用性与可靠性。同时，这些数据也能指导模型优化方向，帮助工程团队识别性能短板，针对性地进行数据增强或微调策略调整。

数据集最近研究