open-llm-leaderboard-old/details_guardrail__llama-2-7b-guanaco-instruct-sharded

Name: open-llm-leaderboard-old/details_guardrail__llama-2-7b-guanaco-instruct-sharded
Creator: open-llm-leaderboard-old
Published: 2023-10-23 13:49:30
License: 暂无描述

Hugging Face2023-10-23 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/open-llm-leaderboard-old/details_guardrail__llama-2-7b-guanaco-instruct-sharded

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是在评估模型guardrail/llama-2-7b-guanaco-instruct-sharded在Open LLM Leaderboard上的表现时自动创建的。数据集由64个配置组成，每个配置对应一个评估任务。数据集由2次运行生成，每次运行的结果作为特定配置中的一个分割，分割名称使用运行的时间戳。"train"分割始终指向最新的结果。此外，一个名为"results"的配置存储了所有运行的聚合结果，用于计算和显示Open LLM Leaderboard上的聚合指标。

提供机构：

open-llm-leaderboard-old

原始信息汇总

数据集概述

该数据集是在评估模型guardrail/llama-2-7b-guanaco-instruct-sharded在Open LLM Leaderboard上的运行过程中自动创建的。

数据集组成

数据集包含64个配置，每个配置对应一个评估任务。
数据集从2次运行中创建，每次运行可以在每个配置中找到特定的分割，分割名称使用运行的时间戳。
"train"分割始终指向最新的结果。
一个额外的配置"results"存储所有运行的聚合结果，用于计算和显示Open LLM Leaderboard上的聚合指标。

数据加载示例

python from datasets import load_dataset data = load_dataset("open-llm-leaderboard/details_guardrail__llama-2-7b-guanaco-instruct-sharded", "harness_winogrande_5", split="train")

配置详情

harness_arc_challenge_25
- 分割: 2023_09_12T10_44_14.063451
- 路径: **/details_harness|arc:challenge|25_2023-09-12T10-44-14.063451.parquet
- 分割: latest
- 路径: **/details_harness|arc:challenge|25_2023-09-12T10-44-14.063451.parquet
harness_drop_3
- 分割: 2023_10_23T13_49_18.537687
- 路径: **/details_harness|drop|3_2023-10-23T13-49-18.537687.parquet
- 分割: latest
- 路径: **/details_harness|drop|3_2023-10-23T13-49-18.537687.parquet
harness_gsm8k_5
- 分割: 2023_10_23T13_49_18.537687
- 路径: **/details_harness|gsm8k|5_2023-10-23T13-49-18.537687.parquet
- 分割: latest
- 路径: **/details_harness|gsm8k|5_2023-10-23T13-49-18.537687.parquet
harness_hellaswag_10
- 分割: 2023_09_12T10_44_14.063451
- 路径: **/details_harness|hellaswag|10_2023-09-12T10-44-14.063451.parquet
- 分割: latest
- 路径: **/details_harness|hellaswag|10_2023-09-12T10-44-14.063451.parquet
harness_hendrycksTest_5
- 分割: 2023_09_12T10_44_14.063451
- 路径:
  - **/details_harness|hendrycksTest-abstract_algebra|5_2023-09-12T10-44-14.063451.parquet
  - **/details_harness|hendrycksTest-anatomy|5_2023-09-12T10-44-14.063451.parquet
  - **/details_harness|hendrycksTest-astronomy|5_2023-09-12T10-44-14.063451.parquet
  - **/details_harness|hendrycksTest-business_ethics|5_2023-09-12T10-44-14.063451.parquet
  - **/details_harness|hendrycksTest-clinical_knowledge|5_2023-09-12T10-44-14.063451.parquet
  - **/details_harness|hendrycksTest-college_biology|5_2023-09-12T10-44-14.063451.parquet
  - **/details_harness|hendrycksTest-college_chemistry|5_2023-09-12T10-44-14.063451.parquet
  - **/details_harness|hendrycksTest-college_computer_science|5_2023-09-12T10-44-14.063451.parquet
  - **/details_harness|hendrycksTest-college_mathematics|5_2023-09-12T10-44-14.063451.parquet
  - **/details_harness|hendrycksTest-college_medicine|5_2023-09-12T10-44-14.063451.parquet
  - **/details_harness|hendrycksTest-college_physics|5_2023-09-12T10-44-14.063451.parquet
  - **/details_harness|hendrycksTest-computer_security|5_2023-09-12T10-44-14.063451.parquet
  - **/details_harness|hendrycksTest-conceptual_physics|5_2023-09-12T10-44-14.063451.parquet
  - **/details_harness|hendrycksTest-econometrics|5_2023-09-12T10-44-14.063451.parquet
  - **/details_harness|hendrycksTest-electrical_engineering|5_2023-09-12T10-44-14.063451.parquet
  - **/details_harness|hendrycksTest-elementary_mathematics|5_2023-09-12T10-44-14.063451.parquet
  - **/details_harness|hendrycksTest-formal_logic|5_2023-09-12T10-44-14.063451.parquet
  - **/details_harness|hendrycksTest-global_facts|5_2023-09-12T10-44-14.063451.parquet
  - **/details_harness|hendrycksTest-high_school_biology|5_2023-09-12T10-44-14.063451.parquet
  - **/details_harness|hendrycksTest-high_school_chemistry|5_2023-09-12T10-44-14.063451.parquet
  - **/details_harness|hendrycksTest-high_school_computer_science|5_2023-09-12T10-44-14.063451.parquet
  - **/details_harness|hendrycksTest-high_school_european_history|5_2023-09-12T10-44-14.063451.parquet
  - **/details_harness|hendrycksTest-high_school_geography|5_2023-09-12T10-44-14.063451.parquet
  - **/details_harness|hendrycksTest-high_school_government_and_politics|5_2023-09-12T10-44-14.063451.parquet
  - **/details_harness|hendrycksTest-high_school_macroeconomics|5_2023-09-12T10-44-14.063451.parquet
  - **/details_harness|hendrycksTest-high_school_mathematics|5_2023-09-12T10-44-14.063451.parquet
  - **/details_harness|hendrycksTest-high_school_microeconomics|5_2023-09-12T10-44-14.063451.parquet
  - **/details_harness|hendrycksTest-high_school_physics|5_2023-09-12T10-44-14.063451.parquet
  - **/details_harness|hendrycksTest-high_school_psychology|5_2023-09-12T10-44-14.063451.parquet
  - **/details_harness|hendrycksTest-high_school_statistics|5_2023-09-12T10-44-14.063451.parquet
  - **/details_harness|hendrycksTest-high_school_us_history|5_2023-09-12T10-44-14.063451.parquet
  - **/details_harness|hendrycksTest-high_school_world_history|5_2023-09-12T10-44-14.063451.parquet
  - **/details_harness|hendrycksTest-human_aging|5_2023-09-12T10-44-14.063451.parquet
  - **/details_harness|hendrycksTest-human_sexuality|5_2023-09-12T10-44-14.063451.parquet
  - **/details_harness|hendrycksTest-international_law|5_2023-09-12T10-44-14.063451.parquet
  - **/details_harness|hendrycksTest-jurisprudence|5_2023-09-12T10-44-14.063451.parquet
  - **/details_harness|hendrycksTest-logical_fallacies|5_2023-09-12T10-44-14.063451.parquet
  - **/details_harness|hendrycksTest-machine_learning|5_2023-09-12T10-44-14.063451.parquet
  - **/details_harness|hendrycksTest-management|5_2023-09-12T10-44-14.063451.parquet
  - **/details_harness|hendrycksTest-marketing|5_2023-09-12T10-44-14.063451.parquet
  - **/details_harness|hendrycksTest-medical_genetics|5_2023-09-12T10-44-14.063451.parquet
  - **/details_harness|hendrycksTest-miscellaneous|5_2023-09-12T10-44-14.063451.parquet
  - **/details_harness|hendrycksTest-moral_disputes|5_2023-09-12T10-44-14.063451.parquet
  - **/details_harness|hendrycksTest-moral_scenarios|5_2023-09-12T10-44-14.063451.parquet
  - **/details_harness|hendrycksTest-nutrition|5_2023-09-12T10-44-14.063451.parquet
  - **/details_harness|hendrycksTest-philosophy|5_2023-09-12T10-44-14.063451.parquet
  - **/details_harness|hendrycksTest-prehistory|5_2023-09-12T10-44-14.063451.parquet
  - **/details_harness|hendrycksTest-professional_accounting|5_2023-09-12T10-44-14.063451.parquet
  - **/details_harness|hendrycksTest-professional_law|5_2023-09-12T10-44-14.063451.parquet

搜集汇总

数据集介绍

构建方式

在大型语言模型评估的广阔领域中，Open LLM Leaderboard 扮演着至关重要的角色。本数据集是评估模型 guardrail/llama-2-7b-guanaco-instruct-sharded 时自动生成的产物，其构建过程严谨而系统。数据集包含 64 个配置，每个配置精确对应一个评估任务，例如 ARC Challenge、DROP 和 GSM8K 等。这些配置中的数据源自两次独立的评估运行，每次运行均以时间戳为标识形成特定的数据分割，其中 'train' 分割始终指向最近一次的评估结果。此外，数据集还特设 'results' 配置，用于汇总并存储所有运行的聚合指标，为 Leaderboard 上的综合性能展示提供支撑。

特点

该数据集展现出多维度的鲜明特性。其结构高度模块化，64 个任务配置覆盖了从常识推理到数学求解的广泛能力范畴，能够深度剖析模型在多样化场景下的表现。数据的时间戳分割机制赋予了数据集动态追踪能力，允许研究者按需回溯不同时期的评估细节，从而观察模型性能的演进轨迹。同时，'results' 配置中的聚合指标（如准确率、F1 分数及其标准误）以 JSON 格式呈现，提供了标准化、可复现的度量基准，极大便利了模型间的横向比较与纵向分析。

使用方法

研究者可通过 Hugging Face 的 datasets 库便捷地调用本数据集。例如，使用 load_dataset 函数并指定配置名称（如 'harness_winogrande_5'）及分割（如 'train'），即可加载特定任务的最新评估数据。数据以 Parquet 格式存储，支持高效读写，适合进行细粒度的结果分析。若要获取某次特定运行的结果，可选用对应时间戳的分割名称。此外，通过访问 'results' 配置，用户能够一键获取所有任务的聚合性能指标，为模型评估报告的撰写提供直接的数据源。

背景与挑战

背景概述

该数据集源于HuggingFace社区发起的Open LLM Leaderboard评测项目，旨在系统性地评估开源大语言模型的综合能力。由HuggingFace团队于2023年创建，核心研究问题聚焦于如何通过标准化测试基准（如ARC、HellaSwag、MMLU等）量化模型在推理、常识理解、数学求解等维度的表现。该数据集记录了guardrail/llama-2-7b-guanaco-instruct-sharded模型的多次评测结果，覆盖64个任务配置，其结构化存储方式为后续模型性能对比与趋势分析提供了可靠依据。作为Open LLM Leaderboard的衍生资源，它推动了开源模型评测的透明化与可复现性，对LLM社区具有方法论层面的示范意义。

当前挑战

当前面临的核心挑战包括：其一，领域问题层面，如何设计兼顾广度与深度的评测任务以覆盖模型在知识推理、鲁棒性及安全性等维度的真实能力，避免单一基准导致的评估偏差；其二，构建过程中，多任务评测结果的对齐与标准化存储面临挑战，例如不同时间戳运行的分片数据需统一解析格式，且模型微调版本迭代导致历史结果的可比性降低；其三，评测指标的统计显著性易受样本量及任务难度差异影响，需引入更严谨的误差分析框架来保障结论的可靠性。

常用场景

经典使用场景

在大型语言模型（LLM）的蓬勃发展中，对模型性能进行系统化、标准化评估成为该领域的核心任务之一。该数据集作为Open LLM Leaderboard上对guardrail/llama-2-7b-guanaco-instruct-sharded模型进行评测的产物，其经典使用场景在于记录并复现模型在多项基准任务（如ARC、DROP、GSM8K、HellaSwag、MMLU等）上的细粒度表现。研究者可通过加载特定配置（如harness_winogrande_5）与时间戳分割，获取模型在单次运行中的详尽评测结果，从而进行跨模型、跨时间维度的性能对比与趋势分析。

实际应用

在实际应用中，该数据集为模型选型与优化提供了关键决策依据。开发者在部署聊天机器人、教育辅助系统或代码生成工具前，可参照该数据集中模型在特定任务（如GSM8K的数学推理、DROP的文本理解）上的表现，快速评估其适用性。同时，企业可利用多轮评测结果追踪模型迭代过程中的性能演变，识别潜在退化（如某次更新后Winogrande准确率下降），从而指导模型微调或数据增广策略。这种基于细粒度评测数据的闭环优化，显著提升了LLM在工业场景中的落地效率与可靠性。

衍生相关工作

该数据集衍生了一系列围绕LLM评测基准与元分析的重要工作。其结构化存储方式启发了后续的跨模型评测数据聚合平台，如用于构建模型性能排行榜的标准化数据管道。此外，研究者基于该数据集中不同时间戳的评测结果，发展出模型性能衰减检测方法，系统性分析微调对基础能力的潜在影响。部分工作还利用此类细粒度数据训练性能预测模型，探索通过少量任务结果推测模型在完整基准上表现的可行性，从而降低大规模评测的计算成本。这些衍生研究共同推动了LLM评估从静态榜单向动态、可解释的方向演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集

open-llm-leaderboard-old/details_guardrail__llama-2-7b-guanaco-instruct-sharded

数据集概述

数据集组成

数据加载示例

最新结果

配置详情