five

open-llm-leaderboard-old/details_guardrail__llama-2-7b-guanaco-instruct-sharded

收藏
Hugging Face2023-10-23 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/open-llm-leaderboard-old/details_guardrail__llama-2-7b-guanaco-instruct-sharded
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是在评估模型guardrail/llama-2-7b-guanaco-instruct-sharded在Open LLM Leaderboard上的表现时自动创建的。数据集由64个配置组成,每个配置对应一个评估任务。数据集由2次运行生成,每次运行的结果作为特定配置中的一个分割,分割名称使用运行的时间戳。"train"分割始终指向最新的结果。此外,一个名为"results"的配置存储了所有运行的聚合结果,用于计算和显示Open LLM Leaderboard上的聚合指标。

该数据集是在评估模型guardrail/llama-2-7b-guanaco-instruct-sharded在Open LLM Leaderboard上的表现时自动创建的。数据集由64个配置组成,每个配置对应一个评估任务。数据集由2次运行生成,每次运行的结果作为特定配置中的一个分割,分割名称使用运行的时间戳。"train"分割始终指向最新的结果。此外,一个名为"results"的配置存储了所有运行的聚合结果,用于计算和显示Open LLM Leaderboard上的聚合指标。
提供机构:
open-llm-leaderboard-old
原始信息汇总

数据集概述

该数据集是在评估模型guardrail/llama-2-7b-guanaco-instruct-shardedOpen LLM Leaderboard上的运行过程中自动创建的。

数据集组成

  • 数据集包含64个配置,每个配置对应一个评估任务。
  • 数据集从2次运行中创建,每次运行可以在每个配置中找到特定的分割,分割名称使用运行的时间戳。
  • "train"分割始终指向最新的结果。
  • 一个额外的配置"results"存储所有运行的聚合结果,用于计算和显示Open LLM Leaderboard上的聚合指标。

数据加载示例

python from datasets import load_dataset data = load_dataset("open-llm-leaderboard/details_guardrail__llama-2-7b-guanaco-instruct-sharded", "harness_winogrande_5", split="train")

最新结果

以下是2023-10-23T13:49:18.537687运行的最新结果:

python { "all": { "em": 0.04498741610738255, "em_stderr": 0.00212270539302231, "f1": 0.10647126677852378, "f1_stderr": 0.0025116486687068954, "acc": 0.4021070828693379, "acc_stderr": 0.009961973606864256 }, "harness|drop|3": { "em": 0.04498741610738255, "em_stderr": 0.00212270539302231, "f1": 0.10647126677852378, "f1_stderr": 0.0025116486687068954 }, "harness|gsm8k|5": { "acc": 0.07808946171341925, "acc_stderr": 0.007390654481108218 }, "harness|winogrande|5": { "acc": 0.7261247040252565, "acc_stderr": 0.012533292732620292 } }

配置详情

  • harness_arc_challenge_25

    • 分割: 2023_09_12T10_44_14.063451
    • 路径: **/details_harness|arc:challenge|25_2023-09-12T10-44-14.063451.parquet
    • 分割: latest
    • 路径: **/details_harness|arc:challenge|25_2023-09-12T10-44-14.063451.parquet
  • harness_drop_3

    • 分割: 2023_10_23T13_49_18.537687
    • 路径: **/details_harness|drop|3_2023-10-23T13-49-18.537687.parquet
    • 分割: latest
    • 路径: **/details_harness|drop|3_2023-10-23T13-49-18.537687.parquet
  • harness_gsm8k_5

    • 分割: 2023_10_23T13_49_18.537687
    • 路径: **/details_harness|gsm8k|5_2023-10-23T13-49-18.537687.parquet
    • 分割: latest
    • 路径: **/details_harness|gsm8k|5_2023-10-23T13-49-18.537687.parquet
  • harness_hellaswag_10

    • 分割: 2023_09_12T10_44_14.063451
    • 路径: **/details_harness|hellaswag|10_2023-09-12T10-44-14.063451.parquet
    • 分割: latest
    • 路径: **/details_harness|hellaswag|10_2023-09-12T10-44-14.063451.parquet
  • harness_hendrycksTest_5

    • 分割: 2023_09_12T10_44_14.063451
    • 路径:
      • **/details_harness|hendrycksTest-abstract_algebra|5_2023-09-12T10-44-14.063451.parquet
      • **/details_harness|hendrycksTest-anatomy|5_2023-09-12T10-44-14.063451.parquet
      • **/details_harness|hendrycksTest-astronomy|5_2023-09-12T10-44-14.063451.parquet
      • **/details_harness|hendrycksTest-business_ethics|5_2023-09-12T10-44-14.063451.parquet
      • **/details_harness|hendrycksTest-clinical_knowledge|5_2023-09-12T10-44-14.063451.parquet
      • **/details_harness|hendrycksTest-college_biology|5_2023-09-12T10-44-14.063451.parquet
      • **/details_harness|hendrycksTest-college_chemistry|5_2023-09-12T10-44-14.063451.parquet
      • **/details_harness|hendrycksTest-college_computer_science|5_2023-09-12T10-44-14.063451.parquet
      • **/details_harness|hendrycksTest-college_mathematics|5_2023-09-12T10-44-14.063451.parquet
      • **/details_harness|hendrycksTest-college_medicine|5_2023-09-12T10-44-14.063451.parquet
      • **/details_harness|hendrycksTest-college_physics|5_2023-09-12T10-44-14.063451.parquet
      • **/details_harness|hendrycksTest-computer_security|5_2023-09-12T10-44-14.063451.parquet
      • **/details_harness|hendrycksTest-conceptual_physics|5_2023-09-12T10-44-14.063451.parquet
      • **/details_harness|hendrycksTest-econometrics|5_2023-09-12T10-44-14.063451.parquet
      • **/details_harness|hendrycksTest-electrical_engineering|5_2023-09-12T10-44-14.063451.parquet
      • **/details_harness|hendrycksTest-elementary_mathematics|5_2023-09-12T10-44-14.063451.parquet
      • **/details_harness|hendrycksTest-formal_logic|5_2023-09-12T10-44-14.063451.parquet
      • **/details_harness|hendrycksTest-global_facts|5_2023-09-12T10-44-14.063451.parquet
      • **/details_harness|hendrycksTest-high_school_biology|5_2023-09-12T10-44-14.063451.parquet
      • **/details_harness|hendrycksTest-high_school_chemistry|5_2023-09-12T10-44-14.063451.parquet
      • **/details_harness|hendrycksTest-high_school_computer_science|5_2023-09-12T10-44-14.063451.parquet
      • **/details_harness|hendrycksTest-high_school_european_history|5_2023-09-12T10-44-14.063451.parquet
      • **/details_harness|hendrycksTest-high_school_geography|5_2023-09-12T10-44-14.063451.parquet
      • **/details_harness|hendrycksTest-high_school_government_and_politics|5_2023-09-12T10-44-14.063451.parquet
      • **/details_harness|hendrycksTest-high_school_macroeconomics|5_2023-09-12T10-44-14.063451.parquet
      • **/details_harness|hendrycksTest-high_school_mathematics|5_2023-09-12T10-44-14.063451.parquet
      • **/details_harness|hendrycksTest-high_school_microeconomics|5_2023-09-12T10-44-14.063451.parquet
      • **/details_harness|hendrycksTest-high_school_physics|5_2023-09-12T10-44-14.063451.parquet
      • **/details_harness|hendrycksTest-high_school_psychology|5_2023-09-12T10-44-14.063451.parquet
      • **/details_harness|hendrycksTest-high_school_statistics|5_2023-09-12T10-44-14.063451.parquet
      • **/details_harness|hendrycksTest-high_school_us_history|5_2023-09-12T10-44-14.063451.parquet
      • **/details_harness|hendrycksTest-high_school_world_history|5_2023-09-12T10-44-14.063451.parquet
      • **/details_harness|hendrycksTest-human_aging|5_2023-09-12T10-44-14.063451.parquet
      • **/details_harness|hendrycksTest-human_sexuality|5_2023-09-12T10-44-14.063451.parquet
      • **/details_harness|hendrycksTest-international_law|5_2023-09-12T10-44-14.063451.parquet
      • **/details_harness|hendrycksTest-jurisprudence|5_2023-09-12T10-44-14.063451.parquet
      • **/details_harness|hendrycksTest-logical_fallacies|5_2023-09-12T10-44-14.063451.parquet
      • **/details_harness|hendrycksTest-machine_learning|5_2023-09-12T10-44-14.063451.parquet
      • **/details_harness|hendrycksTest-management|5_2023-09-12T10-44-14.063451.parquet
      • **/details_harness|hendrycksTest-marketing|5_2023-09-12T10-44-14.063451.parquet
      • **/details_harness|hendrycksTest-medical_genetics|5_2023-09-12T10-44-14.063451.parquet
      • **/details_harness|hendrycksTest-miscellaneous|5_2023-09-12T10-44-14.063451.parquet
      • **/details_harness|hendrycksTest-moral_disputes|5_2023-09-12T10-44-14.063451.parquet
      • **/details_harness|hendrycksTest-moral_scenarios|5_2023-09-12T10-44-14.063451.parquet
      • **/details_harness|hendrycksTest-nutrition|5_2023-09-12T10-44-14.063451.parquet
      • **/details_harness|hendrycksTest-philosophy|5_2023-09-12T10-44-14.063451.parquet
      • **/details_harness|hendrycksTest-prehistory|5_2023-09-12T10-44-14.063451.parquet
      • **/details_harness|hendrycksTest-professional_accounting|5_2023-09-12T10-44-14.063451.parquet
      • **/details_harness|hendrycksTest-professional_law|5_2023-09-12T10-44-14.063451.parquet
搜集汇总
数据集介绍
main_image_url
构建方式
在大型语言模型评估的广阔领域中,Open LLM Leaderboard 扮演着至关重要的角色。本数据集是评估模型 guardrail/llama-2-7b-guanaco-instruct-sharded 时自动生成的产物,其构建过程严谨而系统。数据集包含 64 个配置,每个配置精确对应一个评估任务,例如 ARC Challenge、DROP 和 GSM8K 等。这些配置中的数据源自两次独立的评估运行,每次运行均以时间戳为标识形成特定的数据分割,其中 'train' 分割始终指向最近一次的评估结果。此外,数据集还特设 'results' 配置,用于汇总并存储所有运行的聚合指标,为 Leaderboard 上的综合性能展示提供支撑。
特点
该数据集展现出多维度的鲜明特性。其结构高度模块化,64 个任务配置覆盖了从常识推理到数学求解的广泛能力范畴,能够深度剖析模型在多样化场景下的表现。数据的时间戳分割机制赋予了数据集动态追踪能力,允许研究者按需回溯不同时期的评估细节,从而观察模型性能的演进轨迹。同时,'results' 配置中的聚合指标(如准确率、F1 分数及其标准误)以 JSON 格式呈现,提供了标准化、可复现的度量基准,极大便利了模型间的横向比较与纵向分析。
使用方法
研究者可通过 Hugging Face 的 datasets 库便捷地调用本数据集。例如,使用 load_dataset 函数并指定配置名称(如 'harness_winogrande_5')及分割(如 'train'),即可加载特定任务的最新评估数据。数据以 Parquet 格式存储,支持高效读写,适合进行细粒度的结果分析。若要获取某次特定运行的结果,可选用对应时间戳的分割名称。此外,通过访问 'results' 配置,用户能够一键获取所有任务的聚合性能指标,为模型评估报告的撰写提供直接的数据源。
背景与挑战
背景概述
该数据集源于HuggingFace社区发起的Open LLM Leaderboard评测项目,旨在系统性地评估开源大语言模型的综合能力。由HuggingFace团队于2023年创建,核心研究问题聚焦于如何通过标准化测试基准(如ARC、HellaSwag、MMLU等)量化模型在推理、常识理解、数学求解等维度的表现。该数据集记录了guardrail/llama-2-7b-guanaco-instruct-sharded模型的多次评测结果,覆盖64个任务配置,其结构化存储方式为后续模型性能对比与趋势分析提供了可靠依据。作为Open LLM Leaderboard的衍生资源,它推动了开源模型评测的透明化与可复现性,对LLM社区具有方法论层面的示范意义。
当前挑战
当前面临的核心挑战包括:其一,领域问题层面,如何设计兼顾广度与深度的评测任务以覆盖模型在知识推理、鲁棒性及安全性等维度的真实能力,避免单一基准导致的评估偏差;其二,构建过程中,多任务评测结果的对齐与标准化存储面临挑战,例如不同时间戳运行的分片数据需统一解析格式,且模型微调版本迭代导致历史结果的可比性降低;其三,评测指标的统计显著性易受样本量及任务难度差异影响,需引入更严谨的误差分析框架来保障结论的可靠性。
常用场景
经典使用场景
在大型语言模型(LLM)的蓬勃发展中,对模型性能进行系统化、标准化评估成为该领域的核心任务之一。该数据集作为Open LLM Leaderboard上对guardrail/llama-2-7b-guanaco-instruct-sharded模型进行评测的产物,其经典使用场景在于记录并复现模型在多项基准任务(如ARC、DROP、GSM8K、HellaSwag、MMLU等)上的细粒度表现。研究者可通过加载特定配置(如harness_winogrande_5)与时间戳分割,获取模型在单次运行中的详尽评测结果,从而进行跨模型、跨时间维度的性能对比与趋势分析。
实际应用
在实际应用中,该数据集为模型选型与优化提供了关键决策依据。开发者在部署聊天机器人、教育辅助系统或代码生成工具前,可参照该数据集中模型在特定任务(如GSM8K的数学推理、DROP的文本理解)上的表现,快速评估其适用性。同时,企业可利用多轮评测结果追踪模型迭代过程中的性能演变,识别潜在退化(如某次更新后Winogrande准确率下降),从而指导模型微调或数据增广策略。这种基于细粒度评测数据的闭环优化,显著提升了LLM在工业场景中的落地效率与可靠性。
衍生相关工作
该数据集衍生了一系列围绕LLM评测基准与元分析的重要工作。其结构化存储方式启发了后续的跨模型评测数据聚合平台,如用于构建模型性能排行榜的标准化数据管道。此外,研究者基于该数据集中不同时间戳的评测结果,发展出模型性能衰减检测方法,系统性分析微调对基础能力的潜在影响。部分工作还利用此类细粒度数据训练性能预测模型,探索通过少量任务结果推测模型在完整基准上表现的可行性,从而降低大规模评测的计算成本。这些衍生研究共同推动了LLM评估从静态榜单向动态、可解释的方向演进。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作