five

open-llm-leaderboard-old/details_jisukim8873__falcon-7B-case-5

收藏
Hugging Face2024-03-04 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/open-llm-leaderboard-old/details_jisukim8873__falcon-7B-case-5
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是在模型 jisukim8873/falcon-7B-case-5 在 Open LLM Leaderboard 上进行评估时自动生成的。数据集由 63 个配置组成,每个配置对应一个被评估的任务。它包含一次运行的数据,每次运行在每个配置中表示为特定的分割,分割名称由运行的时间戳命名。train 分割始终指向最新的结果。一个名为 results 的额外配置存储了所有运行的聚合结果,用于计算和显示在排行榜上的聚合指标。README 还提供了一个 Python 代码片段来加载数据集,并列出了特定运行的最新结果。

该数据集是在模型 jisukim8873/falcon-7B-case-5 在 Open LLM Leaderboard 上进行评估时自动生成的。数据集由 63 个配置组成,每个配置对应一个被评估的任务。它包含一次运行的数据,每次运行在每个配置中表示为特定的分割,分割名称由运行的时间戳命名。train 分割始终指向最新的结果。一个名为 results 的额外配置存储了所有运行的聚合结果,用于计算和显示在排行榜上的聚合指标。README 还提供了一个 Python 代码片段来加载数据集,并列出了特定运行的最新结果。
提供机构:
open-llm-leaderboard-old
原始信息汇总

数据集概述

数据集创建

数据集结构

  • 配置数量: 63 个配置,每个配置对应一个评估任务。
  • 数据来源: 数据集从 1 次运行中创建,每个运行在每个配置中作为一个特定的分片存在,分片名称使用运行的时间戳。
  • 最新结果: "train" 分片始终指向最新的结果。
  • 结果汇总: 一个额外的配置 "results" 存储所有运行的汇总结果,用于计算和显示在 Open LLM Leaderboard 上的聚合指标。

数据加载示例

python from datasets import load_dataset data = load_dataset("open-llm-leaderboard/details_jisukim8873__falcon-7B-case-5", "harness_winogrande_5", split="train")

最新结果

  • 最新结果时间戳: 2024-03-04T02:58:17.035373
  • 结果示例: python { "all": { "acc": 0.3060812806000869, "acc_stderr": 0.03223458068984409, "acc_norm": 0.3066672250557324, "acc_norm_stderr": 0.032970664445176996, "mc1": 0.2484700122399021, "mc1_stderr": 0.01512742709652069, "mc2": 0.36034965375475575, "mc2_stderr": 0.01417459244672947 }, "harness|arc:challenge|25": { "acc": 0.4462457337883959, "acc_stderr": 0.014526705548539982, "acc_norm": 0.48378839590443684, "acc_norm_stderr": 0.014603708567414947 }, "harness|hellaswag|10": { "acc": 0.5970922127066322, "acc_stderr": 0.004894801119898607, "acc_norm": 0.7851025692093209, "acc_norm_stderr": 0.004099117122280895 }, "harness|hendrycksTest-abstract_algebra|5": { "acc": 0.34, "acc_stderr": 0.04760952285695236, "acc_norm": 0.34, "acc_norm_stderr": 0.04760952285695236 },

    其他任务的结果...

}

配置详情

  • 配置名称: harness_arc_challenge_25

    • 数据文件:
      • 分片: 2024_03_04T02_58_17.035373
        • 路径: **/details_harness|arc:challenge|25_2024-03-04T02-58-17.035373.parquet
      • 分片: latest
        • 路径: **/details_harness|arc:challenge|25_2024-03-04T02-58-17.035373.parquet
  • 配置名称: harness_gsm8k_5

    • 数据文件:
      • 分片: 2024_03_04T02_58_17.035373
        • 路径: **/details_harness|gsm8k|5_2024-03-04T02-58-17.035373.parquet
      • 分片: latest
        • 路径: **/details_harness|gsm8k|5_2024-03-04T02-58-17.035373.parquet
  • 配置名称: harness_hellaswag_10

    • 数据文件:
      • 分片: 2024_03_04T02_58_17.035373
        • 路径: **/details_harness|hellaswag|10_2024-03-04T02-58-17.035373.parquet
      • 分片: latest
        • 路径: **/details_harness|hellaswag|10_2024-03-04T02-58-17.035373.parquet
  • 配置名称: harness_hendrycksTest_5

    • 数据文件:
      • 分片: 2024_03_04T02_58_17.035373
        • 路径:
          • **/details_harness|hendrycksTest-abstract_algebra|5_2024-03-04T02-58-17.035373.parquet
          • **/details_harness|hendrycksTest-anatomy|5_2024-03-04T02-58-17.035373.parquet
          • **/details_harness|hendrycksTest-astronomy|5_2024-03-04T02-58-17.035373.parquet
          • **/details_harness|hendrycksTest-business_ethics|5_2024-03-04T02-58-17.035373.parquet
          • **/details_harness|hendrycksTest-clinical_knowledge|5_2024-03-04T02-58-17.035373.parquet
          • **/details_harness|hendrycksTest-college_biology|5_2024-03-04T02-58-17.035373.parquet
          • **/details_harness|hendrycksTest-college_chemistry|5_2024-03-04T02-58-17.035373.parquet
          • **/details_harness|hendrycksTest-college_computer_science|5_2024-03-04T02-58-17.035373.parquet
          • **/details_harness|hendrycksTest-college_mathematics|5_2024-03-04T02-58-17.035373.parquet
          • **/details_harness|hendrycksTest-college_medicine|5_2024-03-04T02-58-17.035373.parquet
          • **/details_harness|hendrycksTest-college_physics|5_2024-03-04T02-58-17.035373.parquet
          • **/details_harness|hendrycksTest-computer_security|5_2024-03-04T02-58-17.035373.parquet
          • **/details_harness|hendrycksTest-conceptual_physics|5_2024-03-04T02-58-17.035373.parquet
          • **/details_harness|hendrycksTest-econometrics|5_2024-03-04T02-58-17.035373.parquet
          • **/details_harness|hendrycksTest-electrical_engineering|5_2024-03-04T02-58-17.035373.parquet
          • **/details_harness|hendrycksTest-elementary_mathematics|5_2024-03-04T02-58-17.035373.parquet
          • **/details_harness|hendrycksTest-formal_logic|5_2024-03-04T02-58-17.035373.parquet
          • **/details_harness|hendrycksTest-global_facts|5_2024-03-04T02-58-17.035373.parquet

          其他路径...

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集是在Open LLM Leaderboard平台上对模型jisukim8873/falcon-7B-case-5进行自动化评估过程中生成的。数据集包含63个配置,每个配置对应一项被评估的任务,例如ARC挑战、HellaSwag、GSM8K以及涵盖多学科的MMLU测试集。数据来自一次运行,每次运行的时间戳被用作特定分割的名称,而“train”分割始终指向最新的评估结果。此外,一个名为“results”的额外配置存储了所有运行的聚合结果,用于计算和展示排行榜上的综合指标。数据以Parquet格式存储,便于高效加载。
特点
该数据集的核心特点在于其结构化的多任务评估体系,能够全面衡量模型在推理、常识、数学及专业知识等多个维度的表现。每个任务配置独立存储,支持细粒度分析,而“results”配置则提供了全局视角的聚合指标。数据集通过时间戳分割保留了历史运行记录,便于追踪模型性能的演变。此外,所有指标均附带标准误,确保了结果统计的可靠性。这种设计使得数据集不仅适用于模型对比,还可用于研究不同任务间的性能关联。
使用方法
用户可通过Hugging Face的datasets库加载数据,例如使用load_dataset函数指定任务配置和分割。加载时需传入数据集名称、具体任务配置名(如“harness_winogrande_5”)以及所需分割(如“train”)。加载后的数据以DataFrame形式提供,包含详细的评估结果。对于希望获取聚合指标的用户,可直接访问“results”配置。此外,数据集支持通过时间戳分割回溯特定运行的历史结果,便于进行纵向性能分析。
背景与挑战
背景概述
随着大型语言模型(LLM)在自然语言处理领域的迅猛发展,如何系统性地评估其多维度能力成为学术界与工业界共同关注的核心议题。在此背景下,Hugging Face团队于2023年发起了Open LLM Leaderboard项目,旨在构建一个公开、可复现的模型评估基准平台。该数据集正是该项目针对jisukim8873团队于2024年3月提交的falcon-7B-case-5模型进行自动化评估的产物。falcon-7B-case-5作为Falcon系列模型的变体,其评估过程覆盖了从常识推理(如HellaSwag)、数学逻辑(如GSM8K)到专业知识(如MMLU中的57个学科)等共计63项任务配置,全面检验了模型在零样本与少样本场景下的泛化能力。该数据集的创建不仅为研究者提供了细粒度的模型性能快照,更推动了LLM评估标准的透明化与标准化,对后续模型优化与比较研究具有重要参考价值。
当前挑战
该数据集所解决的领域问题在于如何客观衡量LLM在多样化任务上的真实表现,避免单一指标带来的片面性。然而,评估过程本身面临多重挑战:其一,任务覆盖的广度与深度难以平衡,例如MMLU中包含抽象代数、医学遗传学等专业领域,模型在部分学科上准确率不足30%,暴露出知识短板;其二,评估结果对提示词设计与采样参数高度敏感,同一模型在不同配置下可能产生显著差异;其三,构建过程中,63个任务配置需分别独立运行并合并结果,数据格式的统一与版本管理成为工程难题,尤其是每次评估时间戳对应的结果需精确关联至模型版本,确保可追溯性;其四,当前结果中GSM8K任务准确率仅8.49%,揭示了模型在复杂数学推理上的根本性局限,对评估基准的鲁棒性提出了更高要求。
常用场景
经典使用场景
在大规模语言模型迅猛发展的时代背景下,该数据集作为Open LLM Leaderboard评估流程的自动化产物,忠实记录了falcon-7B-case-5模型在63个多样化任务上的细粒度表现。其经典用途在于为研究者提供标准化的模型评估基准,涵盖ARC挑战集、HellaSwag常识推理、MMLU多学科知识及GSM8K数学推理等核心评测维度。通过加载各任务对应的配置与时间戳分割,学者能够精确复现模型在特定时刻的推理能力,从而系统性地比较不同训练策略或架构调整带来的性能变化。
实际应用
在实际应用中,该数据集为模型选型与领域适配提供了量化决策依据。企业或研究机构可依据该数据集所呈现的细粒度得分,精准判断falcon-7B-case-5在特定场景(如教育问答、医疗知识检索或数学解题辅助)中的适用性。例如,其在Winogrande任务上71.8%的准确率暗示了较强的指代消解能力,而GSM8K仅8.5%的表现则警示其在多步数学推理中的局限性。这种多维度的性能画像直接指导了模型在智能客服、知识图谱构建等工业场景中的部署策略与优化方向。
衍生相关工作
围绕该数据集衍生了多项具有影响力的学术探索。一方面,其结构化评估范式启发了后续针对模型鲁棒性(如对抗样本测试)与公平性(如跨领域泛化)的扩展研究;另一方面,社区基于该数据集的分析结果,催生了针对falcon-7B架构的微调策略改进工作,例如通过指令微调或检索增强生成(RAG)来弥补其在数学推理任务上的不足。此外,该数据集的公开促进了跨模型对比排行榜的规范化,为LLaMA、Mistral等系列模型的横向评测奠定了方法论基础,间接推动了开源大模型生态的良性竞争。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作