open-llm-leaderboard-old/details_leveldevai__MBA-7B

Name: open-llm-leaderboard-old/details_leveldevai__MBA-7B
Creator: open-llm-leaderboard-old
Published: 2024-01-19 09:10:30
License: 暂无描述

Hugging Face2024-01-19 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/open-llm-leaderboard-old/details_leveldevai__MBA-7B

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是在模型leveldevai/MBA-7B在Open LLM Leaderboard上的评估运行期间自动创建的。数据集由63个配置组成，每个配置对应一个被评估的任务。数据集是从一个或多个运行中生成的，每个运行在每个配置中表示为特定的拆分。train拆分始终指向最新的结果。此外，还有一个results配置，存储了运行的所有聚合结果，用于计算和显示Open LLM Leaderboard上的指标。README还包含了如何使用datasets库加载数据集的示例，并提供了特定运行的最新结果。

提供机构：

open-llm-leaderboard-old

原始信息汇总

数据集概述

数据集简介

该数据集是在对模型 leveldevai/MBA-7B 进行评估运行期间自动创建的，用于 Open LLM Leaderboard。

数据集组成

数据集包含 63 个配置，每个配置对应一个评估任务。
数据集从 1 次运行中创建，每次运行可以在每个配置中找到特定的分片，分片名称使用运行的时间戳。
"train" 分片始终指向最新的结果。
一个额外的配置 "results" 存储所有运行的聚合结果，用于计算和显示 Open LLM Leaderboard 上的聚合指标。

数据加载示例

python from datasets import load_dataset data = load_dataset("open-llm-leaderboard/details_leveldevai__MBA-7B", "harness_winogrande_5", split="train")

配置详情

harness_arc_challenge_25
- 分片: 2024_01_19T09_07_51.198061, latest
- 路径: **/details_harness|arc:challenge|25_2024-01-19T09-07-51.198061.parquet
harness_gsm8k_5
- 分片: 2024_01_19T09_07_51.198061, latest
- 路径: **/details_harness|gsm8k|5_2024-01-19T09-07-51.198061.parquet
harness_hellaswag_10
- 分片: 2024_01_19T09_07_51.198061, latest
- 路径: **/details_harness|hellaswag|10_2024-01-19T09-07-51.198061.parquet
harness_hendrycksTest_5
- 分片: 2024_01_19T09_07_51.198061, latest
- 路径:
  - **/details_harness|hendrycksTest-abstract_algebra|5_2024-01-19T09-07-51.198061.parquet
  - **/details_harness|hendrycksTest-anatomy|5_2024-01-19T09-07-51.198061.parquet
  - **/details_harness|hendrycksTest-astronomy|5_2024-01-19T09-07-51.198061.parquet
  - **/details_harness|hendrycksTest-business_ethics|5_2024-01-19T09-07-51.198061.parquet
  - **/details_harness|hendrycksTest-clinical_knowledge|5_2024-01-19T09-07-51.198061.parquet
  - **/details_harness|hendrycksTest-college_biology|5_2024-01-19T09-07-51.198061.parquet
  - **/details_harness|hendrycksTest-college_chemistry|5_2024-01-19T09-07-51.198061.parquet
  - **/details_harness|hendrycksTest-college_computer_science|5_2024-01-19T09-07-51.198061.parquet
  - **/details_harness|hendrycksTest-college_mathematics|5_2024-01-19T09-07-51.198061.parquet
  - **/details_harness|hendrycksTest-college_medicine|5_2024-01-19T09-07-51.198061.parquet
  - **/details_harness|hendrycksTest-college_physics|5_2024-01-19T09-07-51.198061.parquet
  - **/details_harness|hendrycksTest-computer_security|5_2024-01-19T09-07-51.198061.parquet
  - **/details_harness|hendrycksTest-conceptual_physics|5_2024-01-19T09-07-51.198061.parquet
  - **/details_harness|hendrycksTest-econometrics|5_2024-01-19T09-07-51.198061.parquet
  - **/details_harness|hendrycksTest-electrical_engineering|5_2024-01-19T09-07-51.198061.parquet
  - **/details_harness|hendrycksTest-elementary_mathematics|5_2024-01-19T09-07-51.198061.parquet
  - **/details_harness|hendrycksTest-formal_logic|5_2024-01-19T09-07-51.198061.parquet
  - **/details_harness|hendrycksTest-global_facts|5_2024-01-19T09-07-51.198061.parquet
  - **/details_harness|hendrycksTest-high_school_biology|5_2024-01-19T09-07-51.198061.parquet
  - **/details_harness|hendrycksTest-high_school_chemistry|5_2024-01-19T09-07-51.198061.parquet
  - **/details_harness|hendrycksTest-high_school_computer_science|5_2024-01-19T09-07-51.198061.parquet
  - **/details_harness|hendrycksTest-high_school_european_history|5_2024-01-19T09-07-51.198061.parquet
  - **/details_harness|hendrycksTest-high_school_geography|5_2024-01-19T09-07-51.198061.parquet
  - **/details_harness|hendrycksTest-high_school_government_and_politics|5_2024-01-19T09-07-51.198061.parquet
  - **/details_harness|hendrycksTest-high_school_macroeconomics|5_2024-01-19T09-07-51.198061.parquet
  - **/details_harness|hendrycksTest-high_school_mathematics|5_2024-01-19T09-07-51.198061.parquet
  - **/details_harness|hendrycksTest-high_school_microeconomics|5_2024-01-19T09-07-51.198061.parquet
  - **/details_harness|hendrycksTest-high_school_physics|5_2024-01-19T09-07-51.198061.parquet
  - **/details_harness|hendrycksTest-high_school_psychology|5_2024-01-19T09-07-51.198061.parquet
  - **/details_harness|hendrycksTest-high_school_statistics|5_2024-01-19T09-07-51.198061.parquet
  - **/details_harness|hendrycksTest-high_school_us_history|5_2024-01-19T09-07-51.198061.parquet
  - **/details_harness|hendrycksTest-high_school_world_history|5_2024-01-19T09-07-51.198061.parquet
  - **/details_harness|hendrycksTest-human_aging|5_2024-01-19T09-07-51.198061.parquet
  - **/details_harness|hendrycksTest-human_sexuality|5_2024-01-19T09-07-51.198061.parquet
  - **/details_harness|hendrycksTest-international_law|5_2024-01-19T09-07-51.198061.parquet
  - **/details_harness|hendrycksTest-jurisprudence|5_2024-01-19T09-07-51.198061.parquet
  - **/details_harness|hendrycksTest-logical_fallacies|5_2024-01-19T09-07-51.198061.parquet
  - **/details_harness|hendrycksTest-machine_learning|5_2024-01-19T09-07-51.198061.parquet
  - **/details_harness|hendrycksTest-management|5_2024-01-19T09-07-51.198061.parquet
  - **/details_harness|hendrycksTest-marketing|5_2024-01-19T09-07-51.198061.parquet
  - **/details_harness|hendrycksTest-medical_genetics|5_2024-01-19T09-07-51.198061.parquet
  - **/details_harness|hendrycksTest-miscellaneous|5_2024-01-19T09-07-51.198061.parquet
  - **/details_harness|hendrycksTest-moral_disputes|5_2024-01-19T09-07-51.198061.parquet
  - **/details_harness|hendrycksTest-moral_scenarios|5_2024-01-19T09-07-51.198061.parquet
  - **/details_harness|hendrycksTest-nutrition|5_2024-01-19T09-07-51.198061.parquet
  - **/details_harness|hendrycksTest-philosophy|5_2024-01-19T09-07-51.198061.parquet
  - **/details_harness|hendrycksTest-prehistory|5_2024-01-19T09-07-51.198061.parquet
  - **/details_harness|hendrycksTest-professional_accounting|5_2024-01-19T09-07-51.198061.parquet
  - **/details_harness|hendrycksTest-professional_law|5_2024-01-19T09-07-51.198061.parquet
  - **/details_harness|hendrycksTest-professional_medicine|5_2024-01-19T09-07-51.198061.parquet
  - **/details_harness|hendrycksTest-professional_psychology|5_2024-01-19T09-07-51.198061.parquet
  - **/details_harness|hendrycksTest-public_relations|5_2024-01-19T09-07-51.198061.parquet
  - **/details_harness|hendrycksTest-security_studies|5_2024-01-19T09-07-51.198061.parquet
  - `**/details_harness|hendrycksTest-sociology|5_2024-01

搜集汇总

数据集介绍

构建方式

该数据集是在Open LLM Leaderboard对模型leveldevai/MBA-7B进行自动化评估过程中自动生成的。数据集源自单次运行，包含63个配置，每个配置对应一个评估任务。每个运行任务均以时间戳为标识，作为独立的分割存储，其中“train”分割始终指向最新结果。此外，还设有“results”配置，用于汇总并存储所有运行的综合结果，这些聚合指标被用于在Open LLM Leaderboard上计算和展示。

使用方法

研究者可通过HuggingFace的datasets库便捷加载数据。例如，使用load_dataset函数，指定数据集名称和任务配置名称（如"harness_winogrande_5"），并选择"train"分割即可获取最新评估详情。对于需要访问历史结果的情况，可依据时间戳对应的split名称进行加载。此外，通过加载"results"配置，可一次性获取所有任务的聚合指标，从而全面审视模型在多种基准下的综合表现。

背景与挑战

背景概述

随着大语言模型技术的迅猛发展，如何系统性地评估模型在多样化任务上的综合能力成为学术界与工业界共同关注的焦点。Open LLM Leaderboard由Hugging Face团队于2023年发起，旨在为大语言模型提供公开、可复现的标准化评测平台。该数据集记录了模型leveldevai/MBA-7B在2024年1月19日的完整评测结果，涵盖ARC-Challenge、HellaSwag、MMLU（57个学科）、TruthfulQA、Winogrande和GSM8K等63项配置，全面覆盖常识推理、数学计算、知识问答与对抗性真实性评估等核心维度。这一评测体系有力推动了模型性能的横向对比与透明度提升，成为社区衡量开源大模型能力的重要参考基准。

当前挑战

该数据集所解决的领域问题在于，大语言模型的性能评估长期面临任务单一、评测标准不统一及结果难以复现的困境。Open LLM Leaderboard通过整合多维度基准测试，试图构建一个公平且可扩展的评估框架，但其挑战同样显著：首先，不同模型在MMLU等学科测试上的表现差异揭示了模型在专业领域知识深度与泛化能力之间的鸿沟；其次，评测过程中需处理任务配置的兼容性与结果聚合的标准化问题，例如同一模型在不同运行轮次中可能因随机性产生波动；此外，数据集的构建需应对大规模评测任务的高计算成本与存储开销，确保每次运行的结果可追溯且易于加载。

常用场景

经典使用场景

在开放大语言模型评测领域，该数据集作为Open LLM Leaderboard的标准化评测结果存储库，为研究者提供了模型MBA-7B在63个细分任务上的详尽性能记录。其核心用途在于支持对模型在ARC挑战、HellaSwag、GSM8K、WinoGrande、TruthfulQA以及涵盖57个学科的MMLU等基准上的表现进行细粒度分析。通过加载特定配置与分片，研究人员能够复现评测流程、对比不同时间戳下的运行结果，从而深入探究模型在常识推理、数学解题、知识问答及多领域理解能力上的优劣。

解决学术问题

该数据集有效解决了大语言模型评测中结果可复现性与透明性不足的学术难题。传统上，模型在公开排行榜上的成绩往往仅以聚合指标呈现，缺乏对单次运行、各任务详细得分及误差范围等底层数据的记录。此数据集通过结构化存储每次评测的完整日志，使学术界能够精确追溯模型性能的波动来源，评估其在特定子任务上的稳健性，并为后续研究提供标准化的对比基线。这种精细化的数据记录方式，显著提升了模型比较的公平性与科学严谨性。

实际应用

在实际应用中，该数据集为模型开发者提供了诊断模型短板与优化方向的直接依据。例如，通过分析MBA-7B在GSM8K数学推理任务上69.07%的准确率，开发者可针对性地增强模型的数学推理能力；而在MMLU的57个学科中，模型在高中美国政府与政治、营销学等科目上表现优异（超过85%），但在抽象代数、大学数学等科目上较弱（约30%），这为领域微调或知识增强提供了明确指引。此外，企业可基于此类评测数据，评估模型在特定业务场景（如法律咨询、医学问答）中的适用性，从而做出更明智的部署决策。

数据集最近研究