five

open-llm-leaderboard-old/details_eachadea__vicuna-13b

收藏
Hugging Face2023-10-15 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/open-llm-leaderboard-old/details_eachadea__vicuna-13b
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是在评估eachadea/vicuna-13b模型时自动创建的,用于Open LLM Leaderboard。它包含64种配置,每种配置对应一个评估任务。数据集由2次运行创建,每次运行都有特定的分割,分割名称使用运行的时间戳。此外,还有一个名为results的配置,存储所有运行的聚合结果,用于计算和显示Leaderboard上的聚合指标。

该数据集是在评估eachadea/vicuna-13b模型时自动创建的,用于Open LLM Leaderboard。它包含64种配置,每种配置对应一个评估任务。数据集由2次运行创建,每次运行都有特定的分割,分割名称使用运行的时间戳。此外,还有一个名为results的配置,存储所有运行的聚合结果,用于计算和显示Leaderboard上的聚合指标。
提供机构:
open-llm-leaderboard-old
原始信息汇总

数据集概述

数据集简介

该数据集是在评估模型 eachadea/vicuna-13bOpen LLM Leaderboard 上的运行过程中自动创建的。

数据集组成

  • 数据集包含 64 个配置,每个配置对应一个评估任务。
  • 数据集从 2 次运行中创建,每次运行可以在每个配置中找到特定的分割,分割名称使用运行的时间戳。
  • "train" 分割始终指向最新的结果。
  • 一个额外的配置 "results" 存储所有运行的聚合结果,用于计算和显示 Open LLM Leaderboard 上的聚合指标。

数据加载示例

python from datasets import load_dataset data = load_dataset("open-llm-leaderboard/details_eachadea__vicuna-13b", "harness_winogrande_5", split="train")

最新结果

以下是 2023-10-15T06:05:43.185046 运行的最新结果: python { "all": { "em": 0.0018875838926174498, "em_stderr": 0.00044451099905591266, "f1": 0.06103502516778559, "f1_stderr": 0.0014093219432847165, "acc": 0.3930771978723926, "acc_stderr": 0.01001987826540043 }, "harness|drop|3": { "em": 0.0018875838926174498, "em_stderr": 0.00044451099905591266, "f1": 0.06103502516778559, "f1_stderr": 0.0014093219432847165 }, "harness|gsm8k|5": { "acc": 0.0758150113722517, "acc_stderr": 0.007291205723162591 }, "harness|winogrande|5": { "acc": 0.7103393843725335, "acc_stderr": 0.012748550807638271 } }

配置详情

  • harness_arc_challenge_25

    • 分割: 2023_07_18T14_25_52.300291
    • 路径: **/details_harness|arc:challenge|25_2023-07-18T14:25:52.300291.parquet
    • 分割: latest
    • 路径: **/details_harness|arc:challenge|25_2023-07-18T14:25:52.300291.parquet
  • harness_drop_3

    • 分割: 2023_10_15T06_05_43.185046
    • 路径: **/details_harness|drop|3_2023-10-15T06-05-43.185046.parquet
    • 分割: latest
    • 路径: **/details_harness|drop|3_2023-10-15T06-05-43.185046.parquet
  • harness_gsm8k_5

    • 分割: 2023_10_15T06_05_43.185046
    • 路径: **/details_harness|gsm8k|5_2023-10-15T06-05-43.185046.parquet
    • 分割: latest
    • 路径: **/details_harness|gsm8k|5_2023-10-15T06-05-43.185046.parquet
  • harness_hellaswag_10

    • 分割: 2023_07_18T14_25_52.300291
    • 路径: **/details_harness|hellaswag|10_2023-07-18T14:25:52.300291.parquet
    • 分割: latest
    • 路径: **/details_harness|hellaswag|10_2023-07-18T14:25:52.300291.parquet
  • harness_hendrycksTest_5

    • 分割: 2023_07_18T14_25_52.300291
    • 路径:
      • **/details_harness|hendrycksTest-abstract_algebra|5_2023-07-18T14:25:52.300291.parquet
      • **/details_harness|hendrycksTest-anatomy|5_2023-07-18T14:25:52.300291.parquet
      • **/details_harness|hendrycksTest-astronomy|5_2023-07-18T14:25:52.300291.parquet
      • **/details_harness|hendrycksTest-business_ethics|5_2023-07-18T14:25:52.300291.parquet
      • **/details_harness|hendrycksTest-clinical_knowledge|5_2023-07-18T14:25:52.300291.parquet
      • **/details_harness|hendrycksTest-college_biology|5_2023-07-18T14:25:52.300291.parquet
      • **/details_harness|hendrycksTest-college_chemistry|5_2023-07-18T14:25:52.300291.parquet
      • **/details_harness|hendrycksTest-college_computer_science|5_2023-07-18T14:25:52.300291.parquet
      • **/details_harness|hendrycksTest-college_mathematics|5_2023-07-18T14:25:52.300291.parquet
      • **/details_harness|hendrycksTest-college_medicine|5_2023-07-18T14:25:52.300291.parquet
      • **/details_harness|hendrycksTest-college_physics|5_2023-07-18T14:25:52.300291.parquet
      • **/details_harness|hendrycksTest-computer_security|5_2023-07-18T14:25:52.300291.parquet
      • **/details_harness|hendrycksTest-conceptual_physics|5_2023-07-18T14:25:52.300291.parquet
      • **/details_harness|hendrycksTest-econometrics|5_2023-07-18T14:25:52.300291.parquet
      • **/details_harness|hendrycksTest-electrical_engineering|5_2023-07-18T14:25:52.300291.parquet
      • **/details_harness|hendrycksTest-elementary_mathematics|5_2023-07-18T14:25:52.300291.parquet
      • **/details_harness|hendrycksTest-formal_logic|5_2023-07-18T14:25:52.300291.parquet
      • **/details_harness|hendrycksTest-global_facts|5_2023-07-18T14:25:52.300291.parquet
      • **/details_harness|hendrycksTest-high_school_biology|5_2023-07-18T14:25:52.300291.parquet
      • **/details_harness|hendrycksTest-high_school_chemistry|5_2023-07-18T14:25:52.300291.parquet
      • **/details_harness|hendrycksTest-high_school_computer_science|5_2023-07-18T14:25:52.300291.parquet
      • **/details_harness|hendrycksTest-high_school_european_history|5_2023-07-18T14:25:52.300291.parquet
      • **/details_harness|hendrycksTest-high_school_geography|5_2023-07-18T14:25:52.300291.parquet
      • **/details_harness|hendrycksTest-high_school_government_and_politics|5_2023-07-18T14:25:52.300291.parquet
      • **/details_harness|hendrycksTest-high_school_macroeconomics|5_2023-07-18T14:25:52.300291.parquet
      • **/details_harness|hendrycksTest-high_school_mathematics|5_2023-07-18T14:25:52.300291.parquet
      • **/details_harness|hendrycksTest-high_school_microeconomics|5_2023-07-18T14:25:52.300291.parquet
      • **/details_harness|hendrycksTest-high_school_physics|5_2023-07-18T14:25:52.300291.parquet
      • **/details_harness|hendrycksTest-high_school_psychology|5_2023-07-18T14:25:52.300291.parquet
      • **/details_harness|hendrycksTest-high_school_statistics|5_2023-07-18T14:25:52.300291.parquet
      • **/details_harness|hendrycksTest-high_school_us_history|5_2023-07-18T14:25:52.300291.parquet
      • **/details_harness|hendrycksTest-high_school_world_history|5_2023-07-18T14:25:52.300291.parquet
      • **/details_harness|hendrycksTest-human_aging|5_2023-07-18T14:25:52.300291.parquet
      • **/details_harness|hendrycksTest-human_sexuality|5_2023-07-18T14:25:52.300291.parquet
      • **/details_harness|hendrycksTest-international_law|5_2023-07-18T14:25:52.300291.parquet
      • **/details_harness|hendrycksTest-jurisprudence|5_2023-07-18T14:25:52.300291.parquet
      • **/details_harness|hendrycksTest-logical_fallacies|5_2023-07-18T14:25:52.300291.parquet
      • **/details_harness|hendrycksTest-machine_learning|5_2023-07-18T14:25:52.300291.parquet
      • **/details_harness|hendrycksTest-management|5_2023-07-18T14:25:52.300291.parquet
      • **/details_harness|hendrycksTest-marketing|5_2023-07-18T14:25:52.300291.parquet
      • **/details_harness|hendrycksTest-medical_genetics|5_2023-07-18T14:25:52.300291.parquet
      • **/details_harness|hendrycksTest-miscellaneous|5_2023-07-18T14:25:52.300291.parquet
      • **/details_harness|hendrycksTest-moral_disputes|5_2023-07-18T14:25:52.300291.parquet
      • **/details_harness|hendrycksTest-moral_scenarios|5_2023-07-18T14:25:52.300291.parquet
      • **/details_harness|hendrycksTest-nutrition|5_2023-07-18T14:25:52.300291.parquet
      • **/details_harness|hendrycksTest-philosophy|5_2023-07-18T14:25:52.300291.parquet
      • **/details_harness|hendrycksTest-prehistory|5_2023-07-18T14:25:52.300291.parquet
      • **/details_harness|hendrycksTest-professional_accounting|5_2023-07-18T14:25:52.300291.parquet
      • **/details_harness|hendrycksTest-professional_law|5_2023-07-18T14:25:52.300291.parquet
      • `**/details_harness|hendrycksTest-professional_medicine|
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集是在Open LLM Leaderboard对eachadea/vicuna-13b模型进行自动化评估的过程中生成的。数据集包含64个配置,每个配置对应一个被评估的任务,这些任务涵盖ARC挑战、DROP、GSM8K、HellaSwag以及涵盖57个学科的HendrycksTest等多个基准测试。每个配置均包含多个分割,其中以时间戳命名的分割对应每一次评估运行的结果,而'train'分割始终指向最新一次运行的数据。此外,一个名为'results'的配置存储了所有运行的聚合结果,用于在Leaderboard上计算和展示综合指标。
使用方法
研究者可通过Hugging Face的datasets库便捷加载该数据集。例如,使用load_dataset函数并指定配置名称(如'harness_winogrande_5')和分割(如'train'),即可获取最新评估的详细结果。若需回溯历史运行,可通过时间戳分割名称(如'2023_10_15T06_05_43.185046')加载特定批次的数据。此外,'results'配置提供了所有运行结果的聚合JSON文件,可直接解析以获取模型在各任务上的综合指标,如准确率、F1分数等。
背景与挑战
背景概述
在大型语言模型迅猛发展的浪潮中,如何系统性地评估模型性能成为学术界与工业界共同关注的焦点。Hugging Face团队于2023年创立了Open LLM Leaderboard,旨在为开源大语言模型提供标准化、可复现的评测基准。该数据集记录了eachadea/vicuna-13b模型在多个任务上的详细评估结果,涵盖ARC挑战集、DROP、GSM8K、HellaSwag及涵盖57个学科的MMLU等多样化测试。由Clémentine Fourrier主导的这一项目,通过自动化的评估流水线,为研究者提供了模型在推理、数学、常识及专业知识等多维度能力的量化指标,对推动开源LLM的透明化比较与迭代优化产生了深远影响。
当前挑战
该数据集所面临的挑战首先体现在评测任务的多样性上,需同时覆盖从常识推理到专业学科等跨度极大的领域,这对模型的泛化能力提出了严苛要求。具体而言,vicuna-13b在DROP任务中F1值仅0.061,在GSM8K数学推理中准确率仅7.58%,暴露出模型在复杂推理与精确计算方面的显著短板。构建过程中,评估结果的时效性与可复现性构成另一重挑战,数据集需记录多次运行的时间戳与对应结果,确保不同时间点的评测数据可追溯。此外,面对MMLU中57个细粒度学科,如何统一评测标准并处理各子任务间的结果聚合,也对数据组织架构的灵活性与准确性提出了较高要求。
常用场景
经典使用场景
在大型语言模型(LLM)迅猛发展的浪潮中,对模型性能进行系统化、标准化的评估成为推动技术进步的关键环节。open-llm-leaderboard-old/details_eachadea__vicuna-13b数据集正是为此而生,它记录了Vicuna-13b模型在Open LLM Leaderboard上的完整评估轨迹。该数据集的核心用途在于为研究者提供一个细粒度的、多任务维度的模型性能快照,涵盖从常识推理(如ARC Challenge、HellaSwag)到数学解题(GSM8K)、阅读理解(DROP)以及广泛的多学科知识(MMLU)等64项配置任务。通过加载特定任务配置下的详细结果,研究人员能够深入剖析模型在不同能力维度上的优劣表现,从而为模型优化提供精准的数据支撑。
解决学术问题
该数据集精准回应了学术界长期存在的一个核心难题:如何构建一个透明、可复现且具备多维度评估能力的LLM评测体系。传统上,模型评估往往局限于单一基准或零散的实验结果,缺乏统一的比较框架。此数据集通过标准化流程,将每次评估的运行记录、时间戳和聚合指标完整保存,使得研究者能够追溯模型性能的演变历程。它解决了跨模型、跨时间点性能对比的客观性难题,为理解模型能力边界、诊断模型缺陷(如在不同学科知识上的表现差异)提供了可靠的实证基础。其意义在于推动了LLM评估从主观描述向数据驱动的科学范式转变,显著增强了学术研究的可复现性和结论的严谨性。
实际应用
在实际应用层面,该数据集为LLM的选型与部署提供了无可替代的决策依据。企业在选择适合特定业务场景的模型时,例如需要高精度数学推理的金融计算或需要广泛常识的客服系统,可以依据该数据集中Vicuna-13b在GSM8K和MMLU等任务上的详尽表现,做出数据驱动的选择。此外,数据集中的错误率与置信区间等统计信息,有助于开发者评估模型在现实世界中的稳定性与可靠性。对于模型服务商而言,这些细粒度结果还能用于构建模型能力雷达图,向客户直观展示模型的优势与局限,从而在模型营销与技术透明之间取得平衡。
数据集最近研究
最新研究方向
在大语言模型评测领域,Open LLM Leaderboard已成为衡量模型综合能力的重要基准。围绕eachadea/vicuna-13b模型的评估数据集,近期研究聚焦于通过细粒度任务分解与多轮次运行机制,深入剖析模型在推理、常识与数学等维度上的表现。该数据集包含64个评测配置,覆盖ARC挑战、HellaSwag、GSM8K及MMLU等经典任务,并记录了2023年7月至10月间的多次运行结果,为追踪模型性能的演化轨迹提供了独特视角。前沿方向尤其关注模型在复杂推理任务中的稳定性与泛化能力,例如GSM8K上7.58%的准确率虽不突出,却揭示了开源模型在数学推理领域的进步空间;而Winogrande上71.03%的准确率则展示了其在常识推理上的竞争力。这一数据集不仅为社区提供了透明、可复现的评估框架,更通过详尽的误差分析(如em_stderr与acc_stderr)推动了模型鲁棒性研究的发展,成为连接模型开发与性能优化的关键桥梁。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作