five

open-llm-leaderboard-old/details_Azure99__blossom-v4-mistral-7b

收藏
Hugging Face2023-12-28 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/open-llm-leaderboard-old/details_Azure99__blossom-v4-mistral-7b
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是在评估模型Azure99/blossom-v4-mistral-7b时自动生成的,评估过程在Open LLM Leaderboard上进行。数据集包含63个配置,每个配置对应一个评估任务。数据集由1次运行生成,每次运行的结果作为特定配置中的一个分割,分割名称使用运行的时间戳。train分割始终指向最新的结果。此外,数据集还包含一个名为results的配置,用于存储所有运行的聚合结果,并在Open LLM Leaderboard上显示聚合指标。

该数据集是在评估模型Azure99/blossom-v4-mistral-7b时自动生成的,评估过程在Open LLM Leaderboard上进行。数据集包含63个配置,每个配置对应一个评估任务。数据集由1次运行生成,每次运行的结果作为特定配置中的一个分割,分割名称使用运行的时间戳。train分割始终指向最新的结果。此外,数据集还包含一个名为results的配置,用于存储所有运行的聚合结果,并在Open LLM Leaderboard上显示聚合指标。
提供机构:
open-llm-leaderboard-old
原始信息汇总

数据集概述

数据集简介

该数据集是在评估模型 Azure99/blossom-v4-mistral-7bOpen LLM Leaderboard 上的运行过程中自动创建的。

数据集组成

  • 数据集包含 63 个配置,每个配置对应一个评估任务。
  • 数据集从 1 次运行中创建,每个运行可以在每个配置中找到特定的分割,分割名称使用运行的时间戳。
  • "train" 分割始终指向最新的结果。
  • 额外的 "results" 配置存储所有运行的聚合结果,用于计算和显示在 Open LLM Leaderboard 上的聚合指标。

数据加载示例

python from datasets import load_dataset data = load_dataset("open-llm-leaderboard/details_Azure99__blossom-v4-mistral-7b", "harness_winogrande_5", split="train")

最新结果

以下是 2023-12-28T11:10:20.298869 运行的最新结果

python { "all": { "acc": 0.6235420002967518, "acc_stderr": 0.03272388603364805, "acc_norm": 0.6281854377869052, "acc_norm_stderr": 0.03338061598239654, "mc1": 0.36964504283965727, "mc1_stderr": 0.016898180706973888, "mc2": 0.5384391963865467, "mc2_stderr": 0.015414673673859326 }, "harness|arc:challenge|25": { "acc": 0.5793515358361775, "acc_stderr": 0.014426211252508397, "acc_norm": 0.6203071672354948, "acc_norm_stderr": 0.014182119866974872 }, "harness|hellaswag|10": { "acc": 0.6390161322445728, "acc_stderr": 0.004793042992396035, "acc_norm": 0.8290181238797052, "acc_norm_stderr": 0.0037572368063973345 }, "harness|hendrycksTest-abstract_algebra|5": { "acc": 0.28, "acc_stderr": 0.04512608598542129, "acc_norm": 0.28, "acc_norm_stderr": 0.04512608598542129 }, "harness|hendrycksTest-anatomy|5": { "acc": 0.5851851851851851, "acc_stderr": 0.04256193767901409, "acc_norm": 0.5851851851851851, "acc_norm_stderr": 0.04256193767901409 }, "harness|hendrycksTest-astronomy|5": { "acc": 0.6381578947368421, "acc_stderr": 0.03910525752849724, "acc_norm": 0.6381578947368421, "acc_norm_stderr": 0.03910525752849724 }, "harness|hendrycksTest-business_ethics|5": { "acc": 0.62, "acc_stderr": 0.048783173121456316, "acc_norm": 0.62, "acc_norm_stderr": 0.048783173121456316 }, "harness|hendrycksTest-clinical_knowledge|5": { "acc": 0.6943396226415094, "acc_stderr": 0.028353298073322666, "acc_norm": 0.6943396226415094, "acc_norm_stderr": 0.028353298073322666 }, "harness|hendrycksTest-college_biology|5": { "acc": 0.7152777777777778, "acc_stderr": 0.03773809990686934, "acc_norm": 0.7152777777777778, "acc_norm_stderr": 0.03773809990686934 }, "harness|hendrycksTest-college_chemistry|5": { "acc": 0.45, "acc_stderr": 0.05, "acc_norm": 0.45, "acc_norm_stderr": 0.05 }, "harness|hendrycksTest-college_computer_science|5": { "acc": 0.5, "acc_stderr": 0.050251890762960605, "acc_norm": 0.5, "acc_norm_stderr": 0.050251890762960605 }, "harness|hendrycksTest-college_mathematics|5": { "acc": 0.36, "acc_stderr": 0.04824181513244218, "acc_norm": 0.36, "acc_norm_stderr": 0.04824181513244218 }, "harness|hendrycksTest-college_medicine|5": { "acc": 0.5838150289017341, "acc_stderr": 0.03758517775404947, "acc_norm": 0.5838150289017341, "acc_norm_stderr": 0.03758517775404947 }, "harness|hendrycksTest-college_physics|5": { "acc": 0.4019607843137255, "acc_stderr": 0.048786087144669955, "acc_norm": 0.4019607843137255, "acc_norm_stderr": 0.048786087144669955 }, "harness|hendrycksTest-computer_security|5": { "acc": 0.74, "acc_stderr": 0.0440844002276808, "acc_norm": 0.74, "acc_norm_stderr": 0.0440844002276808 }, "harness|hendrycksTest-conceptual_physics|5": { "acc": 0.5787234042553191, "acc_stderr": 0.03227834510146268, "acc_norm": 0.5787234042553191, "acc_norm_stderr": 0.03227834510146268 }, "harness|hendrycksTest-econometrics|5": { "acc": 0.49122807017543857, "acc_stderr": 0.04702880432049615, "acc_norm": 0.49122807017543857, "acc_norm_stderr": 0.04702880432049615 }, "harness|hendrycksTest-electrical_engineering|5": { "acc": 0.5724137931034483, "acc_stderr": 0.04122737111370333, "acc_norm": 0.5724137931034483, "acc_norm_stderr": 0.04122737111370333 }, "harness|hendrycksTest-elementary_mathematics|5": { "acc": 0.41005291005291006, "acc_stderr": 0.02533120243894443, "acc_norm": 0.41005291005291006, "acc_norm_stderr": 0.02533120243894443 }, "harness|hendrycksTest-formal_logic|5": { "acc": 0.3968253968253968, "acc_stderr": 0.04375888492727061, "acc_norm": 0.3968253968253968, "acc_norm_stderr": 0.04375888492727061 }, "harness|hendrycksTest-global_facts|5": { "acc": 0.4, "acc_stderr": 0.049236596391733084, "acc_norm": 0.4, "acc_norm_stderr": 0.049236596391733084 }, "harness|hendrycksTest-high_school_biology|5": { "acc": 0.7322580645161291, "acc_stderr": 0.025189006660212378, "acc_norm": 0.7322580645161291, "acc_norm_stderr": 0.025189006660212378 }, "harness|hendrycksTest-high_school_chemistry|5": { "acc": 0.5270935960591133, "acc_stderr": 0.03512819077876106, "acc_norm": 0.5270935960591133, "acc_norm_stderr": 0.03512819077876106 }, "harness|hendrycksTest-high_school_computer_science|5": { "acc": 0.68, "acc_stderr": 0.04688261722621505, "acc_norm": 0.68, "acc_norm_stderr": 0.04688261722621505 }, "harness|hendrycksTest-high_school_european_history|5": { "acc": 0.7696969696969697, "acc_stderr": 0.0328766675860349, "acc_norm": 0.7696969696969697, "acc_norm_stderr": 0.0328766675860349 }, "harness|hendrycksTest-high_school_geography|5": { "acc": 0.7828282828282829, "acc_stderr": 0.029376616484945627, "acc_norm": 0.7828282828282829, "acc_norm_stderr": 0.029376616484945627 }, "harness|hendrycksTest-high_school_government_and_politics|5": { "acc": 0.8549222797927462, "acc_stderr": 0.025416343096306433, "acc_norm": 0.8549222797927462, "acc_norm_stderr": 0.025416343096306433 }, "harness|hendrycksTest-high_school_macroeconomics|5": { "acc": 0.6153846153846154, "acc_stderr": 0.024666744915187208, "acc_norm": 0.6153846153846154, "acc_norm_stderr": 0.024666744915187208 }, "harness|hendrycksTest-high_school_mathematics|5": { "acc": 0.3148148148148148, "acc_stderr": 0.028317533496066468, "acc_norm": 0.3148148148148148, "acc_norm_stderr": 0.028317533496066468 },

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集是在Open LLM Leaderboard框架下,对Azure99/blossom-v4-mistral-7b模型进行自动化评估过程中生成的。数据集涵盖63个配置,每个配置对应一项评估任务,所有评估结果均来自同一运行批次。每个运行批次的数据以时间戳命名作为独立分割存储于对应配置中,而'train'分割始终指向最新的评估结果。此外,一个名为'results'的额外配置汇聚了所有运行批次的聚合指标,用于在排行榜上计算并展示整体性能。
特点
数据集的核心特点在于其结构化与动态更新机制。它细粒度地记录了模型在多项任务上的表现,包括ARC挑战、HellaSwag、GSM8K、Winogrande、TruthfulQA以及涵盖57个学科的MMLU基准测试。每个任务配置下的分割均保留了原始时间戳,便于追溯历史评估结果。'results'配置则提供了诸如准确率及其标准误差等聚合统计量,为模型的综合能力评估提供了量化依据。
使用方法
用户可通过HuggingFace的datasets库便捷加载数据。例如,加载Winogrande任务的评估细节时,可使用代码:`from datasets import load_dataset; data = load_dataset('open-llm-leaderboard/details_Azure99__blossom-v4-mistral-7b', 'harness_winogrande_5', split='train')`。通过指定不同的配置名称和分割,用户可以访问特定任务的原始评估记录或最新的聚合结果,从而进行深入分析与模型比较。
背景与挑战
背景概述
随着大语言模型(LLM)的蓬勃发展,如何系统、公正地评估其性能成为了学界与工业界共同关注的焦点。在此背景下,HuggingFace社区于2023年推出了Open LLM Leaderboard,旨在为各类开源模型提供一个标准化的评测平台。该数据集正是针对Azure99团队于2023年发布的blossom-v4-mistral-7b模型在Leaderboard上的单次评估结果所构建的。数据集涵盖了从ARC挑战赛、HellaSwag到MMLU等57项多样化任务,全面反映了模型在常识推理、数学计算、多学科知识乃至伦理判断等多维能力上的表现。这一评估过程不仅为blossom-v4-mistral-7b模型提供了详尽的性能画像,更为后续模型优化与社区对比研究奠定了数据基础,对推动开放语言模型的透明化评估具有重要示范意义。
当前挑战
该数据集所承载的核心挑战源于大语言模型评估领域固有的复杂性。首先,模型需要在跨度极大的任务类型上展现均衡能力,从需要常识推理的ARC挑战到依赖精确数学运算的GSM8K,任何单一维度的短板都可能被评测体系精准捕捉,这要求模型具备极为广泛的泛化能力。其次,在数据集构建过程中,如何确保来自57个不同配置的评测结果能够被统一、高效地存储与回溯,是一大工程挑战。此外,每次运行产生的独立时间戳分割与“latest”分割的指向逻辑,虽保证了数据可追溯性,但也增加了版本管理的复杂度。最后,评测指标的多样性(如acc、acc_norm、mc1等)及其统计误差的呈现,要求使用者具备一定的统计素养才能准确解读模型性能,这无形中提高了数据集的准入门槛。
常用场景
经典使用场景
该数据集作为Open LLM Leaderboard评估流程的副产品,专为记录和复现Azure99/blossom-v4-mistral-7b模型在63个标准化任务上的细粒度表现而设计。其核心用途在于为研究者提供一种结构化的基准测试框架,通过加载特定配置(如harness_winogrande_5)与时间戳分割,精准追踪模型在常识推理、知识问答与数学求解等维度的瞬时性能,从而支撑大规模语言模型能力的横向对比与纵向迭代分析。
衍生相关工作
该数据集衍生了一系列围绕大模型评估方法论的重要工作。例如,基于其细粒度结果,研究者提出了任务难度加权聚合指标以纠正简单任务对整体得分的稀释效应;此外,利用其多任务日志,学界开发了模型能力轮廓可视化工具,并催生了针对特定学科(如医学、法律)的专项评估套件,进一步拓展了开源模型在垂直领域的可信度验证范式。
数据集最近研究
最新研究方向
当前,大型语言模型(LLM)的性能评估正成为自然语言处理领域的前沿热点,尤其是通过标准化基准测试全面衡量模型在推理、常识理解、数学解题及多领域知识掌握上的综合能力。Azure99/blossom-v4-mistral-7b模型在Open LLM Leaderboard上的评测数据集,正是这一趋势的典型代表。该数据集涵盖ARC-Challenge、HellaSwag、GSM8K、TruthfulQA、WinoGrande以及涵盖57个学科的MMLU等多样化任务,不仅反映了模型在复杂推理与常识问答上的表现,更通过细粒度指标(如acc_norm、mc2)揭示了其在不同知识维度的稳健性。这一研究方向紧密关联着当前社区对开源模型能力边界探索的热点事件——从社区驱动的排行榜竞争到模型可复现性评估,该数据集为研究者提供了透明、可复现的评估框架,推动了LLM在真实场景中可靠性与公平性评测的标准化进程,对促进模型迭代与落地应用具有深远意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作