five

open-llm-leaderboard-old/details_OpenBuddy__openbuddy-mistral-7b-v13

收藏
Hugging Face2023-10-24 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/open-llm-leaderboard-old/details_OpenBuddy__openbuddy-mistral-7b-v13
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是在Open LLM Leaderboard上对OpenBuddy/openbuddy-mistral-7b-v13模型进行评估时自动创建的。数据集包含64个配置,每个配置对应一个评估任务。数据集由2次运行生成,每次运行的结果作为特定配置中的一个分割,分割名称使用运行的时间戳。train分割始终指向最新的结果。此外,还有一个名为results的配置,存储了所有运行的聚合结果,并用于计算和显示Open LLM Leaderboard上的聚合指标。

该数据集是在Open LLM Leaderboard上对OpenBuddy/openbuddy-mistral-7b-v13模型进行评估时自动创建的。数据集包含64个配置,每个配置对应一个评估任务。数据集由2次运行生成,每次运行的结果作为特定配置中的一个分割,分割名称使用运行的时间戳。train分割始终指向最新的结果。此外,还有一个名为results的配置,存储了所有运行的聚合结果,并用于计算和显示Open LLM Leaderboard上的聚合指标。
提供机构:
open-llm-leaderboard-old
原始信息汇总

数据集概述

数据集来源

该数据集是在对模型 OpenBuddy/openbuddy-mistral-7b-v13 进行评估运行期间自动创建的。

数据集组成

数据集由64个配置组成,每个配置对应一个评估任务。数据集从2次运行中创建,每次运行可以在每个配置中找到特定的分割,分割名称使用运行的时间戳。"train" 分割始终指向最新的结果。

额外配置

一个额外的配置 "results" 存储了所有运行的聚合结果,用于计算和显示在 Open LLM Leaderboard 上的聚合指标。

数据加载示例

python from datasets import load_dataset data = load_dataset("open-llm-leaderboard/details_OpenBuddy__openbuddy-mistral-7b-v13", "harness_winogrande_5", split="train")

最新结果

以下是 2023-10-24T22:04:44.332803 运行的最新结果: python { "all": { "em": 0.29750419463087246, "em_stderr": 0.004681748345750226, "f1": 0.3555442533557056, "f1_stderr": 0.004616201496073195, "acc": 0.4322619501392136, "acc_stderr": 0.011205063255665634 }, "harness|drop|3": { "em": 0.29750419463087246, "em_stderr": 0.004681748345750226, "f1": 0.3555442533557056, "f1_stderr": 0.004616201496073195 }, "harness|gsm8k|5": { "acc": 0.1470811220621683, "acc_stderr": 0.00975606366035987 }, "harness|winogrande|5": { "acc": 0.7174427782162589, "acc_stderr": 0.012654062850971398 } }

配置详情

配置列表

  • harness_arc_challenge_25

    • 分割: 2023_10_10T08_32_08.394718
    • 路径: **/details_harness|arc:challenge|25_2023-10-10T08-32-08.394718.parquet
    • 分割: latest
    • 路径: **/details_harness|arc:challenge|25_2023-10-10T08-32-08.394718.parquet
  • harness_drop_3

    • 分割: 2023_10_24T22_04_44.332803
    • 路径: **/details_harness|drop|3_2023-10-24T22-04-44.332803.parquet
    • 分割: latest
    • 路径: **/details_harness|drop|3_2023-10-24T22-04-44.332803.parquet
  • harness_gsm8k_5

    • 分割: 2023_10_24T22_04_44.332803
    • 路径: **/details_harness|gsm8k|5_2023-10-24T22-04-44.332803.parquet
    • 分割: latest
    • 路径: **/details_harness|gsm8k|5_2023-10-24T22-04-44.332803.parquet
  • harness_hellaswag_10

    • 分割: 2023_10_10T08_32_08.394718
    • 路径: **/details_harness|hellaswag|10_2023-10-10T08-32-08.394718.parquet
    • 分割: latest
    • 路径: **/details_harness|hellaswag|10_2023-10-10T08-32-08.394718.parquet
  • harness_hendrycksTest_5

    • 分割: 2023_10_10T08_32_08.394718
    • 路径:
      • **/details_harness|hendrycksTest-abstract_algebra|5_2023-10-10T08-32-08.394718.parquet
      • **/details_harness|hendrycksTest-anatomy|5_2023-10-10T08-32-08.394718.parquet
      • **/details_harness|hendrycksTest-astronomy|5_2023-10-10T08-32-08.394718.parquet
      • **/details_harness|hendrycksTest-business_ethics|5_2023-10-10T08-32-08.394718.parquet
      • **/details_harness|hendrycksTest-clinical_knowledge|5_2023-10-10T08-32-08.394718.parquet
      • **/details_harness|hendrycksTest-college_biology|5_2023-10-10T08-32-08.394718.parquet
      • **/details_harness|hendrycksTest-college_chemistry|5_2023-10-10T08-32-08.394718.parquet
      • **/details_harness|hendrycksTest-college_computer_science|5_2023-10-10T08-32-08.394718.parquet
      • **/details_harness|hendrycksTest-college_mathematics|5_2023-10-10T08-32-08.394718.parquet
      • **/details_harness|hendrycksTest-college_medicine|5_2023-10-10T08-32-08.394718.parquet
      • **/details_harness|hendrycksTest-college_physics|5_2023-10-10T08-32-08.394718.parquet
      • **/details_harness|hendrycksTest-computer_security|5_2023-10-10T08-32-08.394718.parquet
      • **/details_harness|hendrycksTest-conceptual_physics|5_2023-10-10T08-32-08.394718.parquet
      • **/details_harness|hendrycksTest-econometrics|5_2023-10-10T08-32-08.394718.parquet
      • **/details_harness|hendrycksTest-electrical_engineering|5_2023-10-10T08-32-08.394718.parquet
      • **/details_harness|hendrycksTest-elementary_mathematics|5_2023-10-10T08-32-08.394718.parquet
      • **/details_harness|hendrycksTest-formal_logic|5_2023-10-10T08-32-08.394718.parquet
      • **/details_harness|hendrycksTest-global_facts|5_2023-10-10T08-32-08.394718.parquet
      • **/details_harness|hendrycksTest-high_school_biology|5_2023-10-10T08-32-08.394718.parquet
      • **/details_harness|hendrycksTest-high_school_chemistry|5_2023-10-10T08-32-08.394718.parquet
      • **/details_harness|hendrycksTest-high_school_computer_science|5_2023-10-10T08-32-08.394718.parquet
      • **/details_harness|hendrycksTest-high_school_european_history|5_2023-10-10T08-32-08.394718.parquet
      • **/details_harness|hendrycksTest-high_school_geography|5_2023-10-10T08-32-08.394718.parquet
      • **/details_harness|hendrycksTest-high_school_government_and_politics|5_2023-10-10T08-32-08.394718.parquet
      • **/details_harness|hendrycksTest-high_school_macroeconomics|5_2023-10-10T08-32-08.394718.parquet
      • **/details_harness|hendrycksTest-high_school_mathematics|5_2023-10-10T08-32-08.394718.parquet
      • **/details_harness|hendrycksTest-high_school_microeconomics|5_2023-10-10T08-32-08.394718.parquet
      • **/details_harness|hendrycksTest-high_school_physics|5_2023-10-10T08-32-08.394718.parquet
      • **/details_harness|hendrycksTest-high_school_psychology|5_2023-10-10T08-32-08.394718.parquet
      • **/details_harness|hendrycksTest-high_school_statistics|5_2023-10-10T08-32-08.394718.parquet
      • **/details_harness|hendrycksTest-high_school_us_history|5_2023-10-10T08-32-08.394718.parquet
      • **/details_harness|hendrycksTest-high_school_world_history|5_2023-10-10T08-32-08.394718.parquet
      • **/details_harness|hendrycksTest-human_aging|5_2023-10-10T08-32-08.394718.parquet
      • **/details_harness|hendrycksTest-human_sexuality|5_2023-10-10T08-32-08.394718.parquet
      • **/details_harness|hendrycksTest-international_law|5_2023-10-10T08-32-08.394718.parquet
      • **/details_harness|hendrycksTest-jurisprudence|5_2023-10-10T08-32-08.394718.parquet
      • **/details_harness|hendrycksTest-logical_fallacies|5_2023-10-10T08-32-08.394718.parquet
      • **/details_harness|hendrycksTest-machine_learning|5_2023-10-10T08-32-08.394718.parquet
      • **/details_harness|hendrycksTest-management|5_2023-10-10T08-32-08.394718.parquet
      • **/details_harness|hendrycksTest-marketing|5_2023-10-10T08-32-08.394718.parquet
      • **/details_harness|hendrycksTest-medical_genetics|5_2023-10-10T08-32-08.394718.parquet
      • **/details_harness|hendrycksTest-miscellaneous|5_2023-10-10T08-32-08.394718.parquet
      • **/details_harness|hendrycksTest-moral_disputes|5_2023-10-10T08-32-08.394718.parquet
      • **/details_harness|hendrycksTest-moral_scenarios|5_2023-10-10T08-32-08.394718.parquet
      • **/details_harness|hendrycksTest-nutrition|5_2023-10-10T08-32-08.394718.parquet
      • **/details_harness|hendrycksTest-philosophy|5_2023-10-10T08-32-08.394718.parquet
      • **/details_harness|hendrycksTest-prehistory|5_2023-10-10T08-32-08.394718.parquet
      • **/details_harness|hendrycksTest-professional_accounting|5_2023-10-10T08-32-08.394718.parquet
      • **/details_harness|hendrycksTest-professional_law|5_2023-10-10T08-32-08.394718.parquet
      • `**/details_harness|hendrycksTest-professional_medicine|5_2023-10-10T0
搜集汇总
数据集介绍
main_image_url
构建方式
在大规模语言模型评估的背景下,该数据集是专为记录OpenBuddy/openbuddy-mistral-7b-v13模型在Open LLM Leaderboard上的评测结果而自动生成的。数据集构建过程依托于HuggingFace的评估框架,通过两次独立的运行采集模型在64个不同任务配置下的表现数据。每个配置对应一个被评估的具体任务,例如ARC挑战赛、DROP、GSM8K等,并以Parquet格式存储详细的评测细节。运行时间戳被用作数据集的分片标识,而'train'分片则始终指向最新一次的评测结果。此外,一个名为'results'的额外配置专门用于汇总所有运行的聚合指标,以便在排行榜上计算和展示整体性能。
特点
该数据集的核心特点在于其结构化的多任务评估记录体系。它涵盖了从常识推理到数学问题求解等多样化的自然语言处理任务,每个任务都有独立的配置和详细的性能指标,如准确率、F1分数等。通过使用时间戳分片,数据集能够追溯模型在不同时间点的评估历史,支持纵向比较。'latest'分片的设置简化了获取最新结果的操作,而'results'配置则提供了全局视角的聚合数据。这种设计不仅保证了评估数据的透明性和可复现性,也为研究者深入分析模型在不同领域的能力差异提供了细粒度的参考。
使用方法
使用该数据集时,研究者可通过HuggingFace的datasets库便捷地加载特定任务的评估细节。例如,通过调用load_dataset函数并指定配置名称(如'harness_winogrande_5')和分片(如'train'),即可获取该任务的最新评测数据。若要访问历史运行结果,则需使用对应的时间戳分片名称。此外,加载'results'配置能够直接获取所有任务的聚合性能指标。这种模块化的访问方式使得研究者能够灵活地针对单一任务进行深入分析,或快速评估模型的整体表现,从而高效地支撑模型比较与迭代优化工作。
背景与挑战
背景概述
大规模语言模型的飞速发展催生了对其性能进行标准化评估的迫切需求,Open LLM Leaderboard应运而生,成为衡量开源大语言模型能力的重要基准平台。该数据集由HuggingFace团队于2023年创建,核心维护者clementine@hf.co主导了其设计与构建,旨在为模型提供一套涵盖多维度任务的自动化评估框架。数据集记录了OpenBuddy/openbuddy-mistral-7b-v13这一基于Mistral架构的7B参数对话模型的详细评测结果,涵盖ARC挑战集、DROP、GSM8K、HellaSwag、WinoGrande及涵盖57个学科的MMLU等任务。通过公开透明的评测流程,该数据集不仅为模型开发者提供了可复现的性能参照,更推动了开源社区对语言模型泛化能力与知识广度的系统性探究,成为模型迭代与学术比较的关键参考。
当前挑战
该数据集所应对的核心挑战在于如何全面且公平地评估大语言模型的综合能力,这要求评测任务必须覆盖推理、数学、常识及专业知识等多维度,避免单一指标导致的性能偏倚。构建过程中,团队面临多重技术难题:其一,需为每个模型统一运行64个独立配置的任务,确保评测流程的标准化与可复现性;其二,多次评测结果需以时间戳分割存储,并维护“latest”指向最新数据,这对数据版本管理提出高要求;其三,面对如DROP等复杂任务,模型在精确匹配(EM)和F1得分上表现参差,反映出模型在细粒度理解与生成上的不均衡性;此外,评测结果需实时聚合至排行榜,对数据处理管道的稳定性与效率构成持续考验。
常用场景
经典使用场景
该数据集专为评估开源大语言模型在多样化自然语言理解与推理任务上的表现而设计,其经典使用场景涵盖从常识推理、数学问题求解到复杂文本理解的系统性基准测试。例如,通过加载harness_winogrande_5或harness_gsm8k_5等配置,研究者可复现模型在代词消歧和数学推理等子任务上的细粒度表现,从而横向对比不同模型架构与训练策略的优劣。
衍生相关工作
该数据集衍生了一系列关于大模型评估与改进的经典工作。例如,基于其评测结果,研究者提出了针对数学推理能力的专项增强策略,或利用其细粒度任务配置分析模型在多语言环境下的表现差异。此外,它还被用作训练数据,用于开发更高效的模型性能预测器,或作为参照基准,验证新型提示工程与微调方法的有效性,形成了从评测到优化的完整研究闭环。
数据集最近研究
最新研究方向
在大型语言模型(LLM)评测领域,OpenBuddy/openbuddy-mistral-7b-v13模型在Open LLM Leaderboard上的评估结果揭示了当前研究的前沿趋势。该数据集通过64个配置覆盖了ARC、DROP、GSM8K、WinoGrande及HendrycksTest等多样化任务,反映了对模型在常识推理、数学求解、阅读理解及多领域知识掌握上的综合能力考量。值得注意的是,GSM8K任务上仅14.7%的准确率突显了模型在复杂数学推理中的局限性,而WinoGrande上71.7%的准确率则展现了其在代词消歧任务上的相对优势。这些结果与近期热点紧密相连——随着ChatGPT等对话式AI的爆发,学术界和工业界正加速推进LLM在零样本推理、跨域泛化及鲁棒性方面的突破。该评估数据集的意义在于,它不仅为模型性能提供了标准化基准,更通过细粒度指标(如EM、F1)引导研究者关注模型在精确匹配与语义理解间的平衡。当前方向正从单一任务评测转向多维度、多层次的动态评估体系,以应对模型在真实场景中日益复杂的应用需求。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作