open-llm-leaderboard-old/details_OpenBuddy__openbuddy-openllama-13b-v7-fp16

Name: open-llm-leaderboard-old/details_OpenBuddy__openbuddy-openllama-13b-v7-fp16
Creator: open-llm-leaderboard-old
Published: 2023-10-14 17:51:36
License: 暂无描述

Hugging Face2023-10-14 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/open-llm-leaderboard-old/details_OpenBuddy__openbuddy-openllama-13b-v7-fp16

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是在评估模型OpenBuddy/openbuddy-openllama-13b-v7-fp16时自动生成的，包含3个配置，每个配置对应一个评估任务。数据集由2次运行生成，每次运行的结果存储在不同的分割中，分割名称使用运行的时间戳。train分割始终指向最新的结果。此外，还有一个results配置，存储了所有运行的聚合结果，用于在Open LLM Leaderboard上计算和显示聚合指标。

提供机构：

open-llm-leaderboard-old

原始信息汇总

数据集卡片 for Evaluation run of OpenBuddy/openbuddy-openllama-13b-v7-fp16

数据集描述

数据集摘要

数据集是在模型 OpenBuddy/openbuddy-openllama-13b-v7-fp16 在 Open LLM Leaderboard 上的评估运行期间自动创建的。

数据集由 3 个配置组成，每个配置对应一个评估任务。

数据集从 2 次运行中创建。每次运行可以在每个配置中作为一个特定的分割找到，分割名称使用运行的时间戳。"train" 分割总是指向最新的结果。

一个额外的配置 "results" 存储所有运行的聚合结果（并用于计算和显示 Open LLM Leaderboard 上的聚合指标）。

要加载某个运行的详细信息，可以执行以下操作： python from datasets import load_dataset data = load_dataset("open-llm-leaderboard/details_OpenBuddy__openbuddy-openllama-13b-v7-fp16", "harness_winogrande_5", split="train")

最新结果

这些是从 2023-10-14T17:51:28.265681 运行中获得的最新结果（注意，如果有其他任务的结果，它们也会在仓库中。你可以在 "results" 和每个评估的 "latest" 分割中找到它们）：

python { "all": { "em": 0.13496224832214765, "em_stderr": 0.00349915623734624, "f1": 0.19493917785234854, "f1_stderr": 0.0036402036609824453, "acc": 0.39774068872582313, "acc_stderr": 0.010563523906790405 }, "harness|drop|3": { "em": 0.13496224832214765, "em_stderr": 0.00349915623734624, "f1": 0.19493917785234854, "f1_stderr": 0.0036402036609824453 }, "harness|gsm8k|5": { "acc": 0.09855951478392722, "acc_stderr": 0.008210320350946331 }, "harness|winogrande|5": { "acc": 0.696921862667719, "acc_stderr": 0.012916727462634477 } }

搜集汇总

数据集介绍

构建方式

在大型语言模型评估领域，该数据集是为记录OpenBuddy/openbuddy-openllama-13b-v7-fp16模型在Open LLM Leaderboard上的评测过程而自动生成的。其构建基于两个独立的运行轮次，每个轮次对应一个由时间戳标识的数据切分，而“train”切分始终指向最新一次运行的结果。数据集内部包含三个配置，分别对应模型在DROP、GSM8K和WinoGrande三项任务上的评估细节。此外，还增设了一个名为“results”的配置，专门用于存储各轮次的聚合指标，以支撑排行榜上综合分数的计算与展示。所有数据均以Parquet格式存储，确保高效存取。

特点

该数据集的核心特点在于其结构化的多任务评估框架。通过将每次运行的结果按时间戳独立切分，既保留了历史评估的完整性，又通过“latest”切分简化了对最新性能的访问。每个任务配置详尽记录了模型在特定基准上的表现，例如DROP任务提供了精确匹配率（EM）与F1分数及其标准误差，而GSM8K和WinoGrande则聚焦于准确率（acc）指标。这种细粒度的度量设计，使得研究者能够深入分析模型在不同自然语言理解与推理场景下的能力差异，为模型迭代与优化提供了坚实的数据基础。

使用方法

使用该数据集时，可通过Hugging Face的datasets库便捷加载。例如，调用load_dataset函数并指定数据集名称与目标配置（如“harness_winogrande_5”），再选择切分（如“train”）即可获取最新运行结果。若需回溯历史版本，则可通过对应时间戳的切分名称进行加载。对于整体性能分析，可直接读取“results”配置下的聚合数据，其中包含了所有任务的平均指标。这种灵活的数据访问机制，既支持单任务深度剖析，也便于跨任务对比，极大提升了研究效率。

背景与挑战

背景概述

随着大型语言模型（LLMs）在自然语言处理领域的蓬勃发展，如何系统、公平地评估其多维度能力成为学界与工业界共同关注的焦点。Open LLM Leaderboard由HuggingFace团队于2023年创建，旨在为开源语言模型提供标准化的评测基准，其核心研究问题在于构建一个透明、可复现的评估框架，以衡量模型在推理、常识理解及数学求解等任务上的表现。该数据集记录了OpenBuddy团队开发的openbuddy-openllama-13b-v7-fp16模型在Leaderboard上的两次评估运行，覆盖DROP（文本推理）、GSM8K（数学推理）和WinoGrande（常识推理）三项任务，通过细粒度的指标（如精确匹配、F1分数和准确率）揭示了模型在不同领域的性能差异。这一工作不仅为模型开发者提供了关键反馈，也推动了开源LLM评估体系的规范化与社区协作。

当前挑战

该数据集所解决的领域问题在于，语言模型的评估常因任务多样性、指标不统一及运行环境差异而难以横向比较，Open LLM Leaderboard通过固定评测任务和标准化流程，有效缓解了评估结果的可重复性挑战。然而，构建过程中仍面临多重困难：首先，模型在不同任务上的表现波动显著，例如openbuddy-openllama-13b-v7-fp16在WinoGrande上准确率达69.69%，而在GSM8K上仅9.86%，凸显了单一模型在跨领域泛化上的局限性；其次，数据集需处理多次评估运行的时间戳对齐与结果聚合，确保最新版本始终指向最优或最新数据，这对数据管道的版本控制与完整性提出了严格考验；此外，评测任务本身（如DROP的文本推理）对模型理解复杂语义和数值运算的要求极高，而当前结果中较低的精确匹配率（13.50%）表明，模型在处理细粒度推理时仍存在显著瓶颈。

常用场景

经典使用场景

在大规模语言模型迅猛发展的浪潮中，对模型性能进行标准化、可复现的评估成为推动领域进步的关键基石。该数据集专为评估OpenBuddy/openbuddy-openllama-13b-v7-fp16模型而构建，其经典使用场景在于为Open LLM Leaderboard这一权威基准平台提供自动化的评估运行记录。数据集覆盖了三个核心任务配置：DROP（离散推理与阅读理解）、GSM8K（小学数学推理）以及Winogrande（代词消歧与常识推理），每个配置均包含多次运行的时间戳分片，研究者可通过加载特定分片追溯模型在不同时间点的表现细节，从而实现对模型能力的纵向比较与深入剖析。

实际应用

在实际应用层面，该数据集为语言模型的部署与选型提供了宝贵的决策依据。例如，在构建智能问答系统时，开发者可依据数据集中的DROP任务表现（如精确匹配率为13.5%、F1分数为19.5%）评估模型处理复杂篇章级推理的能力；在开发教育辅导工具时，GSM8K任务的准确率（约9.86%）则揭示了模型在数学推理方面的当前局限，从而指导针对性的微调或知识增强。Winogrande任务高达69.7%的准确率，则表明该模型在代词消歧这类细粒度语义理解任务上已具备一定竞争力，可优先应用于需要精确指代理解的场景，如文档摘要或对话系统。

衍生相关工作

围绕该数据集所承载的评估生态，已衍生出一系列富有影响力的经典工作。首要的是Open LLM Leaderboard本身，作为一个持续更新的模型竞技平台，它基于此类数据集实现了对数百个开源大语言模型的标准化评测，催生了诸如LLaMA、Falcon、Mistral等系列模型的性能排名与对比分析。此外，数据集的运行记录格式（如parquet文件与JSON聚合结果）启发了后续研究者在评估工具链上的创新，例如开发更高效的多任务评测框架（如LM Evaluation Harness的深度集成）。这些衍生工作共同推动了语言模型评估从零散实验走向系统化、工程化的范式转变。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集