five

open-llm-leaderboard-old/details_Menouar__saqr-7b-beta

收藏
Hugging Face2024-02-18 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/open-llm-leaderboard-old/details_Menouar__saqr-7b-beta
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是在评估模型Menouar/saqr-7b-beta在Open LLM Leaderboard上的运行过程中自动创建的。数据集由63个配置组成,每个配置对应一个评估任务。数据集的创建基于1次运行,每次运行都有特定的分割,分割名称使用运行的时间戳。此外,还有一个名为results的配置,用于存储所有运行的聚合结果,这些结果用于计算和显示Leaderboard上的聚合指标。

该数据集是在评估模型Menouar/saqr-7b-beta在Open LLM Leaderboard上的运行过程中自动创建的。数据集由63个配置组成,每个配置对应一个评估任务。数据集的创建基于1次运行,每次运行都有特定的分割,分割名称使用运行的时间戳。此外,还有一个名为results的配置,用于存储所有运行的聚合结果,这些结果用于计算和显示Leaderboard上的聚合指标。
提供机构:
open-llm-leaderboard-old
原始信息汇总

数据集概述

数据集简介

该数据集是在对模型 Menouar/saqr-7b-beta 进行评估运行期间自动创建的,用于 Open LLM Leaderboard

数据集结构

  • 配置数量:63个配置,每个配置对应一个评估任务。
  • 创建来源:从1次运行中创建。每个运行在每个配置中作为一个特定的分割存在,分割名称使用运行的时间戳。
  • 最新结果:"train" 分割始终指向最新的结果。
  • 聚合结果:一个额外的配置 "results" 存储所有运行的聚合结果,用于计算和显示在 Open LLM Leaderboard 上的聚合指标。

数据加载示例

python from datasets import load_dataset data = load_dataset("open-llm-leaderboard/details_Menouar__saqr-7b-beta", "harness_winogrande_5", split="train")

最新结果

这些是最新的结果,来自运行 2024-02-18T12:49:44.046455: python { "all": { "acc": 0.27030982140899557, "acc_stderr": 0.03111036577540486, "acc_norm": 0.2704987678522067, "acc_norm_stderr": 0.031811806028838624, "mc1": 0.26193390452876375, "mc1_stderr": 0.01539211880501503, "mc2": 0.3938162400030715, "mc2_stderr": 0.014166543524460336 }, "harness|arc:challenge|25": { "acc": 0.42150170648464164, "acc_stderr": 0.014430197069326016, "acc_norm": 0.4778156996587031, "acc_norm_stderr": 0.014597001927076133 }, "harness|hellaswag|10": { "acc": 0.5774746066520613, "acc_stderr": 0.004929517011508222, "acc_norm": 0.776140211113324, "acc_norm_stderr": 0.004159773209765884 }, "harness|hendrycksTest-abstract_algebra|5": { "acc": 0.25, "acc_stderr": 0.04351941398892446, "acc_norm": 0.25, "acc_norm_stderr": 0.04351941398892446 }, "harness|hendrycksTest-anatomy|5": { "acc": 0.2074074074074074, "acc_stderr": 0.03502553170678316, "acc_norm": 0.2074074074074074, "acc_norm_stderr": 0.03502553170678316 }, "harness|hendrycksTest-astronomy|5": { "acc": 0.23026315789473684, "acc_stderr": 0.03426059424403165, "acc_norm": 0.23026315789473684, "acc_norm_stderr": 0.03426059424403165 }, "harness|hendrycksTest-business_ethics|5": { "acc": 0.23, "acc_stderr": 0.042295258468165065, "acc_norm": 0.23, "acc_norm_stderr": 0.042295258468165065 }, "harness|hendrycksTest-clinical_knowledge|5": { "acc": 0.23773584905660378, "acc_stderr": 0.026199808807561915, "acc_norm": 0.23773584905660378, "acc_norm_stderr": 0.026199808807561915 }, "harness|hendrycksTest-college_biology|5": { "acc": 0.2708333333333333, "acc_stderr": 0.037161774375660185, "acc_norm": 0.2708333333333333, "acc_norm_stderr": 0.037161774375660185 }, "harness|hendrycksTest-college_chemistry|5": { "acc": 0.14, "acc_stderr": 0.034873508801977725, "acc_norm": 0.14, "acc_norm_stderr": 0.034873508801977725 }, "harness|hendrycksTest-college_computer_science|5": { "acc": 0.31, "acc_stderr": 0.04648231987117316, "acc_norm": 0.31, "acc_norm_stderr": 0.04648231987117316 }, "harness|hendrycksTest-college_mathematics|5": { "acc": 0.26, "acc_stderr": 0.04408440022768078, "acc_norm": 0.26, "acc_norm_stderr": 0.04408440022768078 }, "harness|hendrycksTest-college_medicine|5": { "acc": 0.21965317919075145, "acc_stderr": 0.031568093627031744, "acc_norm": 0.21965317919075145, "acc_norm_stderr": 0.031568093627031744 }, "harness|hendrycksTest-college_physics|5": { "acc": 0.20588235294117646, "acc_stderr": 0.04023382273617746, "acc_norm": 0.20588235294117646, "acc_norm_stderr": 0.04023382273617746 }, "harness|hendrycksTest-computer_security|5": { "acc": 0.32, "acc_stderr": 0.046882617226215034, "acc_norm": 0.32, "acc_norm_stderr": 0.046882617226215034 }, "harness|hendrycksTest-conceptual_physics|5": { "acc": 0.2851063829787234, "acc_stderr": 0.029513196625539355, "acc_norm": 0.2851063829787234, "acc_norm_stderr": 0.029513196625539355 }, "harness|hendrycksTest-econometrics|5": { "acc": 0.23684210526315788, "acc_stderr": 0.03999423879281336, "acc_norm": 0.23684210526315788, "acc_norm_stderr": 0.03999423879281336 }, "harness|hendrycksTest-electrical_engineering|5": { "acc": 0.32413793103448274, "acc_stderr": 0.03900432069185555, "acc_norm": 0.32413793103448274, "acc_norm_stderr": 0.03900432069185555 }, "harness|hendrycksTest-elementary_mathematics|5": { "acc": 0.20899470899470898, "acc_stderr": 0.02094048156533486, "acc_norm": 0.20899470899470898, "acc_norm_stderr": 0.02094048156533486 }, "harness|hendrycksTest-formal_logic|5": { "acc": 0.21428571428571427, "acc_stderr": 0.03670066451047181, "acc_norm": 0.21428571428571427, "acc_norm_stderr": 0.03670066451047181 }, "harness|hendrycksTest-global_facts|5": { "acc": 0.32, "acc_stderr": 0.04688261722621503, "acc_norm": 0.32, "acc_norm_stderr": 0.04688261722621503 }, "harness|hendrycksTest-high_school_biology|5": { "acc": 0.1935483870967742, "acc_stderr": 0.02247525852553606, "acc_norm": 0.1935483870967742, "acc_norm_stderr": 0.02247525852553606 }, "harness|hendrycksTest-high_school_chemistry|5": { "acc": 0.1625615763546798, "acc_stderr": 0.025960300064605576, "acc_norm": 0.1625615763546798, "acc_norm_stderr": 0.025960300064605576 }, "harness|hendrycksTest-high_school_computer_science|5": { "acc": 0.31, "acc_stderr": 0.04648231987117316, "acc_norm": 0.31, "acc_norm_stderr": 0.04648231987117316 }, "harness|hendrycksTest-high_school_european_history|5": { "acc": 0.3151515151515151, "acc_stderr": 0.0362773057502241, "acc_norm": 0.3151515151515151, "acc_norm_stderr": 0.0362773057502241 }, "harness|hendrycksTest-high_school_geography|5": { "acc": 0.21717171717171718, "acc_stderr": 0.029376616484945633, "acc_norm": 0.21717171717171718, "acc_norm_stderr": 0.029376616484945633 }, "harness|hendrycksTest-high_school_government_and_politics|5": { "acc": 0.18134715025906736, "acc_stderr": 0.02780703236068609, "acc_norm": 0.18134715025906736, "acc_norm_stderr": 0.02780703236068609 }, "harness|hendrycksTest-high_school_macroeconomics|5": { "acc": 0.23846153846153847, "acc_stderr": 0.021606294494647727, "acc_norm": 0.23846153846153847, "acc_norm_stderr": 0.021606294494647727 }, "harness|hendrycksTest-high_school_mathematics|5": { "acc": 0.2111111111111111, "acc_stderr": 0.024882116857655078, "acc_norm": 0.2111111111111111, "acc_norm_stderr": 0.024882116857655078 }, "harness|hendrycksTest-high_school_microeconom

搜集汇总
数据集介绍
main_image_url
构建方式
在大型语言模型评估领域,Open LLM Leaderboard 提供了一个标准化评测框架。该数据集源自对 Menouar/saqr-7b-beta 模型的一次完整评估运行,通过自动化流程生成。数据集包含 63 个配置,每个配置对应一个评测任务,如 ARC-Challenge、HellaSwag、GSM8K 及涵盖 57 个学科的 MMLU 变体。每个运行的结果以时间戳命名存储为独立分割,而 "train" 分割始终指向最新结果。此外,一个名为 "results" 的额外配置汇总了所有聚合指标,用于在 Leaderboard 上展示。数据以 Parquet 格式存储,确保高效加载与处理。
使用方法
使用该数据集时,推荐通过 Hugging Face Datasets 库加载。例如,可调用 `load_dataset("open-llm-leaderboard/details_Menouar__saqr-7b-beta", "harness_winogrande_5", split="train")` 获取 Winogrande 任务的最新详细结果。如需历史数据,将分割参数替换为对应时间戳(如 "2024_02_18T12_49_44.046455")。对于聚合指标,可加载 "results" 配置来获取整体评测摘要。用户还可根据任务名称(如 "harness_arc_challenge_25")灵活选取特定配置,以深入分析模型在某一领域的表现细节。
背景与挑战
背景概述
在大规模语言模型(LLM)蓬勃发展的时代背景下,如何系统、公正地评估模型的多维度能力已成为学术界与工业界的核心关切。Open LLM Leaderboard作为HuggingFace社区发起的一项标杆性评估平台,旨在通过标准化流程追踪各类开源模型的性能演变。该数据集产生于2024年2月18日,由HuggingFace团队(联系人Clementine)主导,针对Menouar团队开发的saqr-7b-beta模型在63个多样化任务上的评估结果进行结构化存储。核心研究问题聚焦于量化该7B参数模型在常识推理(如HellaSwag、Winogrande)、数学解题(GSM8K)、多学科知识(MMLU系列)及事实一致性(TruthfulQA)等维度的表现,为社区提供可复现的细粒度评测基准。其影响力体现在:通过公开每项任务的准确率与标准误差,推动了LLM评估透明化进程,成为后续模型改进的重要参照。
当前挑战
该数据集所反映的挑战主要体现在两个层面。从领域问题看,saqr-7b-beta在MMLU的57个学科子集上普遍表现平庸(多数准确率低于30%),尤其在需要深度推理的高等数学(14%)、化学(14%)与生物学(27%)领域显著落后于同类模型,揭示了当前开源7B模型在专业领域知识泛化与复杂推理上的结构性短板。从构建过程看,数据集面临评估粒度与一致性挑战:63个配置需对应不同few-shot设置(如GSM8K为5-shot、ARC为25-shot),而每次独立运行产生的评测时间戳差异可能导致任务覆盖不完整,需通过“latest”与时间戳分片机制维护结果的可追溯性,增加了数据整合与版本管理的复杂性。
常用场景
经典使用场景
在大规模语言模型评估的浪潮中,Open LLM Leaderboard上的评测数据成为衡量模型性能的黄金标准。该数据集专为Menouar/saqr-7b-beta模型的评估而构建,覆盖了包括ARC挑战集、HellaSwag、MMLU多学科知识、TruthfulQA、WinoGrande和GSM8K等在内的63个经典任务配置。研究者通过加载不同任务的配置与分割,可精准复现模型在推理、常识理解、数学求解及事实性判别等维度的表现,从而系统性地剖析该7B参数级别模型的优势与局限。
解决学术问题
该数据集的核心学术价值在于为大型语言模型的横向比较提供了标准化、可复现的评估框架。它解决了长期以来模型性能评测中因任务设置、数据版本或评估流程差异导致的不可比性问题。通过统一收录ARC、HellaSwag、MMLU等广泛认可的基准测试结果,研究者得以在严格控制的条件下,客观审视模型在零样本推理、知识迁移与鲁棒性等方面的真实能力。这为后续模型架构优化、训练策略改进及能力边界探索奠定了坚实的数据基础。
实际应用
在实际应用中,该数据集为模型选型与部署提供了关键决策依据。开发者和企业可依据saqr-7b-beta在数学推理(GSM8K)、常识推理(WinoGrande)及多学科知识(MMLU)等维度的表现,评估其是否适用于教育辅导、问答系统、知识检索增强等场景。例如,在需要高精度数学运算的金融科技或教育产品中,模型在GSM8K上仅7.9%的准确率提示其能力不足,从而引导开发者转向更强大的替代方案或进行针对性微调。
数据集最近研究
最新研究方向
当前,随着大语言模型(LLM)在自然语言处理领域的广泛应用,如何系统性地评估其多维度能力成为研究热点。Open LLM Leaderboard作为业界公认的基准平台,其评测数据集为模型性能提供了透明、可复现的量化标尺。围绕Menouar/saqr-7b-beta模型的评估数据,前沿研究聚焦于模型在常识推理(如HellaSwag、ARC-Challenge)、数学问题求解(GSM8K)及多学科知识(MMLU)等任务上的泛化表现。该数据集通过63个细分配置,覆盖从基础逻辑到专业医学的广泛领域,其评测结果揭示了当前7B参数级别模型在复杂推理与知识迁移上的瓶颈,例如在数学推理(GSM8K准确率仅约7.9%)和抽象代数等学科上的显著不足。这一研究方向不仅推动了模型鲁棒性提升与知识蒸馏技术迭代,更为构建更公平、全面的LLM能力图谱提供了关键实证,对指导下一代模型的训练策略优化具有里程碑意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作