open-llm-leaderboard-old/details_Ba2han__BruinsV2-OpHermesNeu-11B

Name: open-llm-leaderboard-old/details_Ba2han__BruinsV2-OpHermesNeu-11B
Creator: open-llm-leaderboard-old
Published: 2023-12-16 12:41:44
License: 暂无描述

Hugging Face2023-12-16 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/open-llm-leaderboard-old/details_Ba2han__BruinsV2-OpHermesNeu-11B

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是在模型Ba2han/BruinsV2-OpHermesNeu-11B在Open LLM Leaderboard上的评估运行期间自动创建的。数据集包含63个配置，每个配置对应一个评估任务。数据集来源于一次运行，每次运行都作为一个特定分割存在，分割名称使用运行的时间戳。train分割始终指向最新结果，另外还有一个results配置，存储了所有运行的聚合结果，用于在Open LLM Leaderboard上计算和显示聚合指标。

提供机构：

open-llm-leaderboard-old

原始信息汇总

数据集概述

数据集简介

该数据集是在评估模型 Ba2han/BruinsV2-OpHermesNeu-11B 在 Open LLM Leaderboard 上的运行过程中自动创建的。

数据集组成

数据集由63个配置组成，每个配置对应一个评估任务。数据集从1次运行中创建，每个运行可以在每个配置中找到特定的分割，分割名称使用运行的时间戳。"train" 分割始终指向最新的结果。

结果配置

一个额外的配置 "results" 存储所有运行的聚合结果，用于计算和显示 Open LLM Leaderboard 上的聚合指标。

加载示例

python from datasets import load_dataset data = load_dataset("open-llm-leaderboard/details_Ba2han__BruinsV2-OpHermesNeu-11B", "harness_winogrande_5", split="train")

最新结果

以下是 2023-12-16T12:38:08.853335 运行的最新结果：

python { "all": { "acc": 0.6442797430736888, "acc_stderr": 0.032189382292323196, "acc_norm": 0.646076779376777, "acc_norm_stderr": 0.0328357234803993, "mc1": 0.46266829865361075, "mc1_stderr": 0.017454645150970588, "mc2": 0.6276115895198878, "mc2_stderr": 0.015378567971079934 }, "harness|arc:challenge|25": { "acc": 0.6552901023890785, "acc_stderr": 0.01388881628678211, "acc_norm": 0.6808873720136519, "acc_norm_stderr": 0.01362169611917331 }, "harness|hellaswag|10": { "acc": 0.659928301135232, "acc_stderr": 0.0047276480578979235, "acc_norm": 0.847042421828321, "acc_norm_stderr": 0.003592109743628618 }, "harness|hendrycksTest-abstract_algebra|5": { "acc": 0.33, "acc_stderr": 0.04725815626252606, "acc_norm": 0.33, "acc_norm_stderr": 0.04725815626252606 }, "harness|hendrycksTest-anatomy|5": { "acc": 0.6518518518518519, "acc_stderr": 0.04115324610336953, "acc_norm": 0.6518518518518519, "acc_norm_stderr": 0.04115324610336953 }, "harness|hendrycksTest-astronomy|5": { "acc": 0.6578947368421053, "acc_stderr": 0.03860731599316092, "acc_norm": 0.6578947368421053, "acc_norm_stderr": 0.03860731599316092 }, "harness|hendrycksTest-business_ethics|5": { "acc": 0.64, "acc_stderr": 0.04824181513244218, "acc_norm": 0.64, "acc_norm_stderr": 0.04824181513244218 }, "harness|hendrycksTest-clinical_knowledge|5": { "acc": 0.7094339622641509, "acc_stderr": 0.027943219989337135, "acc_norm": 0.7094339622641509, "acc_norm_stderr": 0.027943219989337135 }, "harness|hendrycksTest-college_biology|5": { "acc": 0.7708333333333334, "acc_stderr": 0.03514697467862388, "acc_norm": 0.7708333333333334, "acc_norm_stderr": 0.03514697467862388 }, "harness|hendrycksTest-college_chemistry|5": { "acc": 0.46, "acc_stderr": 0.05009082659620333, "acc_norm": 0.46, "acc_norm_stderr": 0.05009082659620333 }, "harness|hendrycksTest-college_computer_science|5": { "acc": 0.54, "acc_stderr": 0.05009082659620333, "acc_norm": 0.54, "acc_norm_stderr": 0.05009082659620333 }, "harness|hendrycksTest-college_mathematics|5": { "acc": 0.29, "acc_stderr": 0.04560480215720684, "acc_norm": 0.29, "acc_norm_stderr": 0.04560480215720684 }, "harness|hendrycksTest-college_medicine|5": { "acc": 0.653179190751445, "acc_stderr": 0.036291466701596636, "acc_norm": 0.653179190751445, "acc_norm_stderr": 0.036291466701596636 }, "harness|hendrycksTest-college_physics|5": { "acc": 0.46078431372549017, "acc_stderr": 0.04959859966384181, "acc_norm": 0.46078431372549017, "acc_norm_stderr": 0.04959859966384181 }, "harness|hendrycksTest-computer_security|5": { "acc": 0.73, "acc_stderr": 0.044619604333847394, "acc_norm": 0.73, "acc_norm_stderr": 0.044619604333847394 }, "harness|hendrycksTest-conceptual_physics|5": { "acc": 0.548936170212766, "acc_stderr": 0.032529096196131965, "acc_norm": 0.548936170212766, "acc_norm_stderr": 0.032529096196131965 }, "harness|hendrycksTest-econometrics|5": { "acc": 0.4824561403508772, "acc_stderr": 0.04700708033551038, "acc_norm": 0.4824561403508772, "acc_norm_stderr": 0.04700708033551038 }, "harness|hendrycksTest-electrical_engineering|5": { "acc": 0.5724137931034483, "acc_stderr": 0.04122737111370332, "acc_norm": 0.5724137931034483, "acc_norm_stderr": 0.04122737111370332 }, "harness|hendrycksTest-elementary_mathematics|5": { "acc": 0.42328042328042326, "acc_stderr": 0.025446365634406796, "acc_norm": 0.42328042328042326, "acc_norm_stderr": 0.025446365634406796 }, "harness|hendrycksTest-formal_logic|5": { "acc": 0.42063492063492064, "acc_stderr": 0.04415438226743744, "acc_norm": 0.42063492063492064, "acc_norm_stderr": 0.04415438226743744 }, "harness|hendrycksTest-global_facts|5": { "acc": 0.35, "acc_stderr": 0.047937248544110196, "acc_norm": 0.35, "acc_norm_stderr": 0.047937248544110196 }, "harness|hendrycksTest-high_school_biology|5": { "acc": 0.7741935483870968, "acc_stderr": 0.023785577884181012, "acc_norm": 0.7741935483870968, "acc_norm_stderr": 0.023785577884181012 }, "harness|hendrycksTest-high_school_chemistry|5": { "acc": 0.47783251231527096, "acc_stderr": 0.03514528562175008, "acc_norm": 0.47783251231527096, "acc_norm_stderr": 0.03514528562175008 }, "harness|hendrycksTest-high_school_computer_science|5": { "acc": 0.75, "acc_stderr": 0.04351941398892446, "acc_norm": 0.75, "acc_norm_stderr": 0.04351941398892446 }, "harness|hendrycksTest-high_school_european_history|5": { "acc": 0.793939393939394, "acc_stderr": 0.0315841532404771, "acc_norm": 0.793939393939394, "acc_norm_stderr": 0.0315841532404771 }, "harness|hendrycksTest-high_school_geography|5": { "acc": 0.7676767676767676, "acc_stderr": 0.030088629490217487, "acc_norm": 0.7676767676767676, "acc_norm_stderr": 0.030088629490217487 }, "harness|hendrycksTest-high_school_government_and_politics|5": { "acc": 0.9067357512953368, "acc_stderr": 0.020986854593289733, "acc_norm": 0.9067357512953368, "acc_norm_stderr": 0.020986854593289733 }, "harness|hendrycksTest-high_school_macroeconomics|5": { "acc": 0.6743589743589744, "acc_stderr": 0.02375966576741229, "acc_norm": 0.6743589743589744, "acc_norm_stderr": 0.02375966576741229 }, "harness|hendrycksTest-high_school_mathematics|5": { "acc": 0.36666666666666664, "acc_stderr": 0.029381620726465066, "acc_norm": 0.3666666666666666

搜集汇总

数据集介绍

构建方式

该数据集是Open LLM Leaderboard在对Ba2han/BruinsV2-OpHermesNeu-11B模型进行自动化评估过程中生成的副产品。其构建逻辑基于单一评估运行，该运行覆盖了63个不同的评测任务配置，每个配置对应一个独立的评估子集。数据以Parquet格式存储，并通过时间戳标记的切分（split）来区分不同运行的结果，其中'train'切分始终指向最新一次运行的数据。此外，数据集包含一个名为'results'的附加配置，用于聚合所有运行的综合指标，为排行榜的最终评分提供依据。

使用方法

用户可通过Hugging Face的datasets库便捷地加载数据。例如，使用`load_dataset("open-llm-leaderboard/details_Ba2han__BruinsV2-OpHermesNeu-11B", "harness_winogrande_5", split="train")`即可获取Winogrande任务的详细评估结果。若需访问特定运行的历史数据，可将切分名称替换为对应的时间戳（如'2023_12_16T12_38_08.853335'）。聚合结果则通过配置名'results'加载，便于直接获取模型在所有任务上的综合性能指标。

背景与挑战

背景概述

在大型语言模型（LLM）迅猛发展的浪潮中，如何系统、公正地评估其多维度能力成为学界与工业界共同关注的焦点。Open LLM Leaderboard由Hugging Face团队于2023年发起，旨在为开源社区提供一个标准化、可复现的模型性能评测平台。该数据集记录了模型Ba2han/BruinsV2-OpHermesNeu-11B在2023年12月16日的完整评估结果，涵盖了ARC-Challenge、HellaSwag、GSM8K、TruthfulQA及涵盖57个学科的MMLU基准测试等核心任务。通过自动记录63个配置下的详细指标，该数据集不仅为模型开发者提供了透明化的性能反馈，更推动了LLM评估范式的规范化进程，对后续模型迭代与社区协作产生了深远影响。

当前挑战

当前数据集面临的核心挑战源于LLM评估领域的固有复杂性。首先，评测任务多样性带来显著挑战：模型需同时在常识推理（如HellaSwag）、数学解题（GSM8K）及多学科知识（MMLU的57个科目）等异构任务上展现均衡性能，而单一模型往往在不同任务间存在性能波动，这要求评估体系具备跨领域的泛化度量能力。其次，构建过程中存在数据一致性难题：自动采集的评估结果需严格对齐不同时间戳的运行记录，确保“latest”分割始终指向最新数据，但多轮评测间的任务覆盖差异可能导致结果对比的偏差。此外，指标标准化（如acc与acc_norm的统计差异）及误差传播的控制，进一步增加了结果解释的严谨性要求。

常用场景

经典使用场景

在自然语言处理与大型语言模型评估领域，open-llm-leaderboard-old/details_Ba2han__BruinsV2-OpHermesNeu-11B数据集被广泛用于对开源大模型进行标准化性能评测。该数据集通过集成ARC-Challenge、HellaSwag、GSM8K、WinoGrande以及涵盖57个学科的MMLU（HendrycksTest）等经典基准测试，为研究者提供了一个多维度、细粒度的模型能力评估框架。其经典使用范式是以HuggingFace的Open LLM Leaderboard为平台，自动记录模型在推理、常识理解、数学求解及知识问答等任务上的表现，从而实现对模型综合智能水平的量化比较与追踪。

解决学术问题

该数据集的核心价值在于解决了大模型研究中长期存在的评估标准碎片化与结果不可复现的难题。通过统一的数据格式与评测流程，它使得不同机构发布的模型能够在同一尺度下进行公平比较，有效避免了因评估环境或指标差异导致的结论偏差。在学术层面，该数据集为探究模型规模、训练策略与下游性能之间的内在关联提供了坚实的数据基础，推动了关于模型泛化能力、鲁棒性及知识边界等关键科学问题的系统研究，成为衡量开源大模型进展的重要晴雨表。

实际应用

在实际应用中，该数据集为模型选型与部署决策提供了客观依据。企业和开发者可以依据该数据集记录的评测结果，快速筛选出在特定任务（如数学推理、常识问答或专业知识检索）上表现卓越的模型，从而降低试错成本。例如，基于GSM8K成绩可评估模型的数学解题能力，而MMLU细分领域的得分则能指导医疗、法律等垂直场景的模型适配。这种结构化评估机制使得技术落地更加精准高效，促进了语言模型在智能客服、教育辅助及知识库问答等真实场景中的可靠应用。

数据集最近研究