open-llm-leaderboard-old/details_osanseviero__mistral-instruct-frankenmerge

Name: open-llm-leaderboard-old/details_osanseviero__mistral-instruct-frankenmerge
Creator: open-llm-leaderboard-old
Published: 2024-01-10 20:17:33
License: 暂无描述

Hugging Face2024-01-10 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/open-llm-leaderboard-old/details_osanseviero__mistral-instruct-frankenmerge

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是在Open LLM Leaderboard上对模型osanseviero/mistral-instruct-frankenmerge进行评估时自动创建的。数据集由63个配置组成，每个配置对应一个被评估的任务。它包含1次运行的结果，每次运行在每个配置中表示为特定的分割。train分割始终指向最新的结果。一个名为results的额外配置存储了所有运行的聚合结果，这些结果用于计算和显示Open LLM Leaderboard上的聚合指标。README还提供了如何使用Hugging Face datasets库加载数据集的示例。

提供机构：

open-llm-leaderboard-old

原始信息汇总

数据集概述

该数据集是在评估模型 osanseviero/mistral-instruct-frankenmerge 在 Open LLM Leaderboard 上的评估运行期间自动创建的。

数据集组成

数据集包含 63 个配置，每个配置对应一个评估任务。
数据集由 1 次运行创建，每次运行可以在每个配置中找到特定的分割，分割名称使用运行的时间戳。
"train" 分割始终指向最新的结果。
一个额外的配置 "results" 存储所有运行的聚合结果，用于计算和显示 Open LLM Leaderboard 上的聚合指标。

最新结果

以下是 2024-01-10T20:14:55.322338 运行的最新结果：

python { "all": { "acc": 0.5893721542580058, "acc_stderr": 0.03318603081747123, "acc_norm": 0.5991326366585236, "acc_norm_stderr": 0.03393580255655097, "mc1": 0.4565483476132191, "mc1_stderr": 0.017437280953183695, "mc2": 0.6647762315179016, "mc2_stderr": 0.015086025931050271 }, "harness|arc:challenge|25": { "acc": 0.5426621160409556, "acc_stderr": 0.014558106543924058, "acc_norm": 0.5819112627986348, "acc_norm_stderr": 0.014413988396996074 }, "harness|hellaswag|10": { "acc": 0.611929894443338, "acc_stderr": 0.004863147544177516, "acc_norm": 0.832603067118104, "acc_norm_stderr": 0.003725668997041313 }, "harness|hendrycksTest-abstract_algebra|5": { "acc": 0.27, "acc_stderr": 0.04461960433384741, "acc_norm": 0.27, "acc_norm_stderr": 0.04461960433384741 }, "harness|hendrycksTest-anatomy|5": { "acc": 0.5555555555555556, "acc_stderr": 0.04292596718256981, "acc_norm": 0.5555555555555556, "acc_norm_stderr": 0.04292596718256981 }, "harness|hendrycksTest-astronomy|5": { "acc": 0.618421052631579, "acc_stderr": 0.03953173377749194, "acc_norm": 0.618421052631579, "acc_norm_stderr": 0.03953173377749194 }, "harness|hendrycksTest-business_ethics|5": { "acc": 0.6, "acc_stderr": 0.049236596391733084, "acc_norm": 0.6, "acc_norm_stderr": 0.049236596391733084 }, "harness|hendrycksTest-clinical_knowledge|5": { "acc": 0.6679245283018868, "acc_stderr": 0.02898545565233439, "acc_norm": 0.6679245283018868, "acc_norm_stderr": 0.02898545565233439 }, "harness|hendrycksTest-college_biology|5": { "acc": 0.6388888888888888, "acc_stderr": 0.04016660030451233, "acc_norm": 0.6388888888888888, "acc_norm_stderr": 0.04016660030451233 }, "harness|hendrycksTest-college_chemistry|5": { "acc": 0.41, "acc_stderr": 0.049431107042371025, "acc_norm": 0.41, "acc_norm_stderr": 0.049431107042371025 }, "harness|hendrycksTest-college_computer_science|5": { "acc": 0.5, "acc_stderr": 0.050251890762960605, "acc_norm": 0.5, "acc_norm_stderr": 0.050251890762960605 }, "harness|hendrycksTest-college_mathematics|5": { "acc": 0.38, "acc_stderr": 0.048783173121456316, "acc_norm": 0.38, "acc_norm_stderr": 0.048783173121456316 }, "harness|hendrycksTest-college_medicine|5": { "acc": 0.5722543352601156, "acc_stderr": 0.03772446857518026, "acc_norm": 0.5722543352601156, "acc_norm_stderr": 0.03772446857518026 }, "harness|hendrycksTest-college_physics|5": { "acc": 0.38235294117647056, "acc_stderr": 0.04835503696107224, "acc_norm": 0.38235294117647056, "acc_norm_stderr": 0.04835503696107224 }, "harness|hendrycksTest-computer_security|5": { "acc": 0.69, "acc_stderr": 0.04648231987117316, "acc_norm": 0.69, "acc_norm_stderr": 0.04648231987117316 }, "harness|hendrycksTest-conceptual_physics|5": { "acc": 0.5148936170212766, "acc_stderr": 0.032671518489247764, "acc_norm": 0.5148936170212766, "acc_norm_stderr": 0.032671518489247764 }, "harness|hendrycksTest-econometrics|5": { "acc": 0.4298245614035088, "acc_stderr": 0.04657047260594963, "acc_norm": 0.4298245614035088, "acc_norm_stderr": 0.04657047260594963 }, "harness|hendrycksTest-electrical_engineering|5": { "acc": 0.593103448275862, "acc_stderr": 0.04093793981266236, "acc_norm": 0.593103448275862, "acc_norm_stderr": 0.04093793981266236 }, "harness|hendrycksTest-elementary_mathematics|5": { "acc": 0.3862433862433862, "acc_stderr": 0.02507598176760168, "acc_norm": 0.3862433862433862, "acc_norm_stderr": 0.02507598176760168 }, "harness|hendrycksTest-formal_logic|5": { "acc": 0.40476190476190477, "acc_stderr": 0.04390259265377563, "acc_norm": 0.40476190476190477, "acc_norm_stderr": 0.04390259265377563 }, "harness|hendrycksTest-global_facts|5": { "acc": 0.29, "acc_stderr": 0.045604802157206845, "acc_norm": 0.29, "acc_norm_stderr": 0.045604802157206845 }, "harness|hendrycksTest-high_school_biology|5": { "acc": 0.6129032258064516, "acc_stderr": 0.027709359675032488, "acc_norm": 0.6129032258064516, "acc_norm_stderr": 0.027709359675032488 }, "harness|hendrycksTest-high_school_chemistry|5": { "acc": 0.47783251231527096, "acc_stderr": 0.03514528562175008, "acc_norm": 0.47783251231527096, "acc_norm_stderr": 0.03514528562175008 }, "harness|hendrycksTest-high_school_computer_science|5": { "acc": 0.65, "acc_stderr": 0.047937248544110196, "acc_norm": 0.65, "acc_norm_stderr": 0.047937248544110196 }, "harness|hendrycksTest-high_school_european_history|5": { "acc": 0.7454545454545455, "acc_stderr": 0.03401506715249039, "acc_norm": 0.7454545454545455, "acc_norm_stderr": 0.03401506715249039 }, "harness|hendrycksTest-high_school_geography|5": { "acc": 0.7474747474747475, "acc_stderr": 0.03095405547036589, "acc_norm": 0.7474747474747475, "acc_norm_stderr": 0.03095405547036589 }, "harness|hendrycksTest-high_school_government_and_politics|5": { "acc": 0.8290155440414507, "acc_stderr": 0.027171213683164542, "acc_norm": 0.8290155440414507, "acc_norm_stderr": 0.027171213683164542 }, "harness|hendrycksTest-high_school_macroeconomics|5": { "acc": 0.5487179487179488, "acc_stderr": 0.025230381238934837, "acc_norm": 0.5487179487179488, "acc_norm_stderr": 0.025230381238934837 }, "harness|hendrycksTest-high_school_mathematics|5": { "acc": 0.32222222222222224, "acc_stderr": 0.028493465091028593, "acc_norm": 0.32222222222222224, "acc_norm_stderr": 0.028493465091028593 }, "harness|hendrycksTest-high_school_microeconomics|5": { "acc": 0.6428571428571429, "acc

搜集汇总

数据集介绍

构建方式

在大型语言模型评估领域，open-llm-leaderboard-old/details_osanseviero__mistral-instruct-frankenmerge数据集通过自动化流程构建而成。该数据集源于对特定模型在开放大语言模型排行榜上的评估运行，系统自动捕获并整合了评估过程中产生的详细结果。其构建核心在于将每次评估运行转化为独立的数据配置，每个配置对应一项具体的评测任务，并以时间戳命名分割，确保不同运行结果的可追溯性。此外，数据集还专门设立了一个聚合配置，用于存储所有运行的汇总指标，为模型性能的综合分析提供结构化数据基础。

特点

该数据集展现出多维度、细粒度的评估特征，涵盖了包括ARC挑战赛、HellaSwag、TruthfulQA以及MMLU专业学科测试在内的63项不同任务配置。每一配置不仅记录了模型在对应任务上的准确率等核心指标，还提供了标准误差估计，使得结果具有统计可靠性。数据集通过时间戳分割机制保留了历史评估记录，同时设立“最新”分割指向最近一次运行结果，实现了数据的版本化管理。这种设计使得研究者能够纵向追踪模型性能演变，横向比较不同任务间的表现差异。

使用方法

研究人员可通过Hugging Face的datasets库便捷加载该数据集，利用其模块化结构进行灵活查询。典型使用方式是指定数据集名称、目标配置（如“harness_winogrande_5”）以及所需分割（如“train”代表最新结果），即可获取对应的评估详情。数据集支持对单项任务结果的深入分析，也允许通过聚合配置全面考察模型整体性能。这种结构化的访问方式便于集成到自动化评估流水线中，为模型比较、性能诊断以及基准测试研究提供标准化数据接口。

背景与挑战

背景概述

在大型语言模型（LLM）迅猛发展的时代背景下，评估其综合能力成为推动技术进步的关键环节。HuggingFace团队于2023年主导构建了Open LLM Leaderboard，旨在通过标准化基准测试，系统性地衡量不同开源语言模型的性能。该平台整合了包括ARC挑战赛、HellaSwag、MMLU以及TruthfulQA在内的多个权威评测任务，为研究社区提供了一个透明、可复现的模型能力对比框架。数据集‘open-llm-leaderboard-old/details_osanseviero__mistral-instruct-frankenmerge’正是这一框架下的产物，它自动记录了模型‘mistral-instruct-frankenmerge’于2024年1月在Leaderboard上的详细评估结果，涵盖了63项具体任务配置，为深入分析模型在常识推理、专业知识及数学解题等维度的表现提供了细粒度数据支撑。

当前挑战

该数据集所应对的核心挑战在于如何全面、公平地评估大型语言模型的多维度能力。评测任务本身即蕴含巨大挑战：例如，ARC挑战赛要求模型进行复杂的科学推理，HellaSwag需模型理解日常情境的物理常识，而MMLU则跨越了从高中到专业水平的57个学科知识，这要求模型具备广泛而深入的世界知识。在数据集构建过程中，挑战同样显著：如何自动化地收集、整合来自不同评测框架（如EleutherAI的LM Evaluation Harness）的异构输出结果，并确保每次评估运行的时间戳、任务配置与结果数据能精确对应且持久化存储。此外，随着模型迭代与评测基准的更新，维护数据集的版本一致性、处理因任务覆盖范围变化导致的结果不连续问题，亦是构建过程中需要持续应对的技术难点。

常用场景

经典使用场景

在大型语言模型评估领域，该数据集作为Open LLM Leaderboard的评估运行结果，其经典使用场景在于为研究人员提供模型性能的细粒度分析。通过涵盖ARC挑战、HellaSwag、MMLU及TruthfulQA等多样化基准任务，数据集允许对模型在常识推理、知识掌握和真实性方面的能力进行横向比较，为模型优化和架构选择提供实证依据。

解决学术问题

该数据集有效解决了大型语言模型评估中标准化与可复现性的核心学术问题。通过整合多个权威基准测试，数据集为模型性能提供了统一度量框架，缓解了因评估协议差异导致的比较困境。其意义在于推动了模型评估的透明化进程，使学术界能够基于一致标准客观衡量模型进展，从而加速了语言智能技术的迭代与创新。

衍生相关工作

围绕该数据集衍生的经典工作主要集中于模型评估方法论与性能分析框架的构建。例如，基于其细粒度任务结果，研究者开发了模型能力剖面可视化工具，以直观呈现模型优势与短板。同时，该数据集也催生了针对模型融合与微调策略的研究，通过对比不同模型在特定任务上的表现，指导了高效模型集成技术的演进，推动了开源模型生态的协同发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集