five

open-llm-leaderboard-old/details_luqmanxyz__LelaStarling-7B

收藏
Hugging Face2024-01-21 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/open-llm-leaderboard-old/details_luqmanxyz__LelaStarling-7B
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是在模型 luqmanxyz/LelaStarling-7B 在 Open LLM Leaderboard 上的评估运行期间自动创建的。数据集由 63 个配置组成,每个配置对应一个评估任务。它包含一次运行的结果,每次运行在每个配置中表示为特定的分割。train 分割始终指向最新的结果。一个名为 results 的额外配置存储了运行的所有聚合结果,这些结果用于计算和显示 Open LLM Leaderboard 上的聚合指标。README 还提供了如何使用 Python 中的 datasets 库加载运行详情的示例。

该数据集是在模型 luqmanxyz/LelaStarling-7B 在 Open LLM Leaderboard 上的评估运行期间自动创建的。数据集由 63 个配置组成,每个配置对应一个评估任务。它包含一次运行的结果,每次运行在每个配置中表示为特定的分割。train 分割始终指向最新的结果。一个名为 results 的额外配置存储了运行的所有聚合结果,这些结果用于计算和显示 Open LLM Leaderboard 上的聚合指标。README 还提供了如何使用 Python 中的 datasets 库加载运行详情的示例。
提供机构:
open-llm-leaderboard-old
原始信息汇总

数据集概述

数据集基本信息

  • 数据集名称: Evaluation run of luqmanxyz/LelaStarling-7B
  • 数据集描述: 该数据集是在模型 luqmanxyz/LelaStarling-7BOpen LLM Leaderboard 上的评估运行期间自动创建的。
  • 数据集组成: 包含 63 个配置,每个配置对应一个评估任务。
  • 数据集来源: 从 1 次运行中创建,每个运行可以在每个配置中找到特定的分割,分割名称使用运行的时间戳。"train" 分割始终指向最新结果。
  • 额外配置: "results" 配置存储所有运行的聚合结果,用于计算和显示 Open LLM Leaderboard 上的聚合指标。

数据加载示例

python from datasets import load_dataset data = load_dataset("open-llm-leaderboard/details_luqmanxyz__LelaStarling-7B", "harness_winogrande_5", split="train")

最新结果

  • 最新结果时间戳: 2024-01-21T03:22:03.188309
  • 结果示例: python { "all": { "acc": 0.653782163258742, "acc_stderr": 0.03202901372406034, "acc_norm": 0.6538975569099659, "acc_norm_stderr": 0.03268928703694758, "mc1": 0.40636474908200737, "mc1_stderr": 0.017193835812093897, "mc2": 0.5772632901338711, "mc2_stderr": 0.015444224853170872 }, "harness|arc:challenge|25": { "acc": 0.6382252559726962, "acc_stderr": 0.014041957945038075, "acc_norm": 0.6757679180887372, "acc_norm_stderr": 0.013678810399518824 }, "harness|hellaswag|10": { "acc": 0.6806413065126469, "acc_stderr": 0.004652753439460136, "acc_norm": 0.8632742481577375, "acc_norm_stderr": 0.00342855459595022 }, "harness|hendrycksTest-abstract_algebra|5": { "acc": 0.4, "acc_stderr": 0.04923659639173309, "acc_norm": 0.4, "acc_norm_stderr": 0.04923659639173309 },

    更多任务结果...

}

配置信息

  • 配置名称: harness_arc_challenge_25

    • 数据文件:
      • 分割: 2024_01_21T03_22_03.188309
        • 路径: **/details_harness|arc:challenge|25_2024-01-21T03-22-03.188309.parquet
      • 分割: latest
        • 路径: **/details_harness|arc:challenge|25_2024-01-21T03-22-03.188309.parquet
  • 配置名称: harness_gsm8k_5

    • 数据文件:
      • 分割: 2024_01_21T03_22_03.188309
        • 路径: **/details_harness|gsm8k|5_2024-01-21T03-22-03.188309.parquet
      • 分割: latest
        • 路径: **/details_harness|gsm8k|5_2024-01-21T03-22-03.188309.parquet
  • 配置名称: harness_hellaswag_10

    • 数据文件:
      • 分割: 2024_01_21T03_22_03.188309
        • 路径: **/details_harness|hellaswag|10_2024-01-21T03-22-03.188309.parquet
      • 分割: latest
        • 路径: **/details_harness|hellaswag|10_2024-01-21T03-22-03.188309.parquet
  • 配置名称: harness_hendrycksTest_5

    • 数据文件:
      • 分割: 2024_01_21T03_22_03.188309
        • 路径:
          • **/details_harness|hendrycksTest-abstract_algebra|5_2024-01-21T03-22-03.188309.parquet
          • **/details_harness|hendrycksTest-anatomy|5_2024-01-21T03-22-03.188309.parquet
          • **/details_harness|hendrycksTest-astronomy|5_2024-01-21T03-22-03.188309.parquet
          • **/details_harness|hendrycksTest-business_ethics|5_2024-01-21T03-22-03.188309.parquet
          • **/details_harness|hendrycksTest-clinical_knowledge|5_2024-01-21T03-22-03.188309.parquet
          • **/details_harness|hendrycksTest-college_biology|5_2024-01-21T03-22-03.188309.parquet
          • **/details_harness|hendrycksTest-college_chemistry|5_2024-01-21T03-22-03.188309.parquet
          • **/details_harness|hendrycksTest-college_computer_science|5_2024-01-21T03-22-03.188309.parquet
          • **/details_harness|hendrycksTest-college_mathematics|5_2024-01-21T03-22-03.188309.parquet
          • **/details_harness|hendrycksTest-college_medicine|5_2024-01-21T03-22-03.188309.parquet
          • **/details_harness|hendrycksTest-college_physics|5_2024-01-21T03-22-03.188309.parquet
          • **/details_harness|hendrycksTest-computer_security|5_2024-01-21T03-22-03.188309.parquet
          • **/details_harness|hendrycksTest-conceptual_physics|5_2024-01-21T03-22-03.188309.parquet
          • **/details_harness|hendrycksTest-econometrics|5_2024-01-21T03-22-03.188309.parquet
          • **/details_harness|hendrycksTest-electrical_engineering|5_2024-01-21T03-22-03.188309.parquet
          • **/details_harness|hendrycksTest-elementary_mathematics|5_2024-01-21T03-22-03.188309.parquet
          • **/details_harness|hendrycksTest-formal_logic|5_2024-01-21T03-22-03.188309.parquet
          • **/details_harness|hendrycksTest-global_facts|5_2024-01-21T03-22-03.188309.parquet
          • **/details_harness|hendrycksTest-high_school_biology|5_2024-01-21T03-22-03.188309.parquet

          更多路径...

      • 分割: latest
        • 路径:
          • **/details_harness|hendrycksTest-abstract_algebra|5_2024-01-21T03-22-03.188309.parquet
          • **/details_harness|hendrycksTest-anatomy|5_2024-01-21T03-22-03.188309.parquet
          • **/details_harness|hendrycksTest-astronomy|5_2024-01-21T03-22-03.188309.parquet
          • **/details_harness|hendrycksTest-business_ethics|5_2024-01-21T03-22-03.188309.parquet
          • **/details_harness|hendrycksTest-clinical_knowledge|5_2024-01-21T03-22-03.188309.parquet
          • **/details_harness|hendrycksTest-college_biology|5_2024-01-21T03-22-03.188309.parquet
          • **/details_harness|hendrycksTest-college_chemistry|5_2024-01-21T03-22-03.188309.parquet
          • **/details_harness|hendrycksTest-college_computer_science|5_2024-01-21T03-22-03.188309.parquet
          • **/details_harness|hendrycksTest-college_mathematics|5_2024-01-21T03-22-03.188309.parquet
          • **/details_harness|hendrycksTest-college_medicine|5_2024-01-21T03-22-03.188309.parquet
          • **/details_harness|hendrycksTest-college_physics|5_2024-01-21T03-22-03.188309.parquet
          • **/details_harness|hendrycksTest-computer_security|5_2024-01-21T03-22-03.188309.parquet
          • **/details_harness|hendrycksTest-conceptual_physics|5_2024-01-21T03-22-03.188309.parquet
          • **/details_harness|hendrycksTest-econometrics|5_2024-01-21T03-22-03.188309.parquet
          • **/details_harness|hendrycksTest-electrical_engineering|5_2024-01-21T03-22-03.188309.parquet
          • **/details_harness|hendrycksTest-elementary_mathematics|5_2024-01-21T03-22-03.188309.parquet
          • **/details_harness|hendrycksTest-formal_logic|5_2024-01-21T03-22-03.188309.parquet
          • **/details_harness|hendrycksTest-global_facts|5_2024-01-21T03-22-03.188309.parquet
          • **/details_harness|hendrycksTest-high_school_biology|5_2024-01-21T03-22-03.188309.parquet

          更多路径...

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集是在Open LLM Leaderboard对模型luqmanxyz/LelaStarling-7B进行评估的过程中自动生成的。它由63个配置构成,每个配置对应一个被评估的任务。数据集基于一次运行创建,每次运行在配置中作为一个特定的分割存在,分割以运行的时间戳命名。'train'分割始终指向最新的结果。此外,还有一个额外的'results'配置用于存储所有聚合结果,这些结果用于计算和展示Open LLM Leaderboard上的聚合指标。
特点
数据集的特点在于其结构化的组织方式,能够清晰记录模型在多个基准任务上的表现。每个配置独立存储对应任务的评估细节,便于按需访问。时间戳分割的设计确保了历史结果的可追溯性,而'train'分割则自动指向最新数据,简化了结果更新流程。聚合结果配置进一步提供了全局视角,使得模型性能的横向对比与总体评估变得直观高效。
使用方法
使用该数据集时,可通过Hugging Face的datasets库加载。用户需指定配置名称(如'harness_winogrande_5')和分割(如'train')来获取特定任务的评估详情。例如,使用load_dataset函数即可加载数据。对于聚合结果,可直接访问'results'配置。这种设计支持灵活检索,既可用于分析模型在单一任务上的细粒度表现,也能通过聚合数据快速评估整体能力。
背景与挑战
背景概述
大语言模型(LLM)的迅猛发展催生了对其性能进行系统性评估的迫切需求,Open LLM Leaderboard 应运而生,成为衡量模型在多样化自然语言理解与推理任务上表现的重要标杆。该数据集由 Hugging Face 团队于 2024 年创建,核心联系人 Clémentine Fourrier 等研究者围绕 luqmanxyz/LelaStarling-7B 这一 70 亿参数模型,在 63 个任务配置上开展了一次全面的评估运行。评估覆盖了常识推理(如 HellaSwag、Winogrande)、数学推理(GSM8K)、知识问答(MMLU 涵盖 57 个学科)以及事实一致性(TruthfulQA)等维度,旨在揭示模型在不同认知层级上的能力边界。这一评估结果不仅为 LelaStarling-7B 模型提供了多维度的性能画像,也为社区对比不同架构与训练策略的模型提供了可复现的基准,推动了 LLM 评估范式的标准化进程。
当前挑战
该数据集所承载的评估体系面临多重挑战。首先,从领域问题层面看,LLM 在复杂推理任务中仍显薄弱,例如 LelaStarling-7B 在 MMLU 的大学数学(32.0%)、高等数学(33.7%)和形式逻辑(50.8%)等需要深层逻辑链的任务上准确率偏低,暴露出模型在抽象符号操作与多步推理方面的局限。其次,在构建过程中,评估结果高度依赖提示模板的选取与少样本示例的配置,不同的设置可能引发显著的性能波动,如何确保评估的公平性与泛化性是一大难题。此外,数据集仅包含单次运行的结果,缺乏多次重复实验以量化随机性带来的不确定性,使得性能指标的统计显著性存疑。最后,现有评估任务多为静态范式,难以捕捉模型在动态交互或长文本生成场景下的表现,这限制了评估生态对现实应用需求的覆盖广度。
常用场景
经典使用场景
在大型语言模型的性能评估领域,该数据集作为Open LLM Leaderboard的评测结果存储库,为研究者提供了模型luqmanxyz/LelaStarling-7B在63个任务配置上的细粒度表现数据。其经典使用场景在于通过加载特定任务的配置(如harness_winogrande_5),获取模型在常识推理、数学求解、知识问答等维度的准确率与标准差,从而系统性地刻画模型的能力边界。这种结构化、可复现的评估范式,使得研究者能够基于统一基准横向对比不同模型的优劣。
实际应用
在实际应用中,该数据集可作为模型选型与部署决策的参考依据。开发者通过分析LelaStarling-7B在Winogrande(代词消解)与TruthfulQA(事实性)等任务上的表现,可判断其在对话系统、教育辅导或专业问答场景中的适用性。例如,其在GSM8K数学任务上71.1%的准确率暗示了其在逻辑推理型应用中的潜力,而MMLU多学科成绩则能指导领域定制化模型的微调方向。
衍生相关工作
该数据集衍生了多项经典工作,包括基于其评测结果开展的模型能力诊断研究、跨模型对比分析以及评估基准的优化探索。研究者利用这些细粒度数据,开发了诸如任务难度自适应加权、模型能力图谱可视化等工具。此外,该数据集还支撑了关于模型规模与性能关系的实证分析,以及针对特定失败案例的归因研究,为后续如LelaStarling系列模型的改进版本提供了关键的性能基线。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务