open-llm-leaderboard-old/details_eachadea__vicuna-13b

Name: open-llm-leaderboard-old/details_eachadea__vicuna-13b
Creator: open-llm-leaderboard-old
Published: 2023-10-15 06:05:55
License: 暂无描述

Hugging Face2023-10-15 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/open-llm-leaderboard-old/details_eachadea__vicuna-13b

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是在评估eachadea/vicuna-13b模型时自动创建的，用于Open LLM Leaderboard。它包含64种配置，每种配置对应一个评估任务。数据集由2次运行创建，每次运行都有特定的分割，分割名称使用运行的时间戳。此外，还有一个名为results的配置，存储所有运行的聚合结果，用于计算和显示Leaderboard上的聚合指标。

提供机构：

open-llm-leaderboard-old

原始信息汇总

数据集概述

数据集简介

该数据集是在评估模型 eachadea/vicuna-13b 在 Open LLM Leaderboard 上的运行过程中自动创建的。

数据集组成

数据集包含 64 个配置，每个配置对应一个评估任务。
数据集从 2 次运行中创建，每次运行可以在每个配置中找到特定的分割，分割名称使用运行的时间戳。
"train" 分割始终指向最新的结果。
一个额外的配置 "results" 存储所有运行的聚合结果，用于计算和显示 Open LLM Leaderboard 上的聚合指标。

数据加载示例

python from datasets import load_dataset data = load_dataset("open-llm-leaderboard/details_eachadea__vicuna-13b", "harness_winogrande_5", split="train")

配置详情

harness_arc_challenge_25
- 分割: 2023_07_18T14_25_52.300291
- 路径: **/details_harness|arc:challenge|25_2023-07-18T14:25:52.300291.parquet
- 分割: latest
- 路径: **/details_harness|arc:challenge|25_2023-07-18T14:25:52.300291.parquet
harness_drop_3
- 分割: 2023_10_15T06_05_43.185046
- 路径: **/details_harness|drop|3_2023-10-15T06-05-43.185046.parquet
- 分割: latest
- 路径: **/details_harness|drop|3_2023-10-15T06-05-43.185046.parquet
harness_gsm8k_5
- 分割: 2023_10_15T06_05_43.185046
- 路径: **/details_harness|gsm8k|5_2023-10-15T06-05-43.185046.parquet
- 分割: latest
- 路径: **/details_harness|gsm8k|5_2023-10-15T06-05-43.185046.parquet
harness_hellaswag_10
- 分割: 2023_07_18T14_25_52.300291
- 路径: **/details_harness|hellaswag|10_2023-07-18T14:25:52.300291.parquet
- 分割: latest
- 路径: **/details_harness|hellaswag|10_2023-07-18T14:25:52.300291.parquet
harness_hendrycksTest_5
- 分割: 2023_07_18T14_25_52.300291
- 路径:
  - **/details_harness|hendrycksTest-abstract_algebra|5_2023-07-18T14:25:52.300291.parquet
  - **/details_harness|hendrycksTest-anatomy|5_2023-07-18T14:25:52.300291.parquet
  - **/details_harness|hendrycksTest-astronomy|5_2023-07-18T14:25:52.300291.parquet
  - **/details_harness|hendrycksTest-business_ethics|5_2023-07-18T14:25:52.300291.parquet
  - **/details_harness|hendrycksTest-clinical_knowledge|5_2023-07-18T14:25:52.300291.parquet
  - **/details_harness|hendrycksTest-college_biology|5_2023-07-18T14:25:52.300291.parquet
  - **/details_harness|hendrycksTest-college_chemistry|5_2023-07-18T14:25:52.300291.parquet
  - **/details_harness|hendrycksTest-college_computer_science|5_2023-07-18T14:25:52.300291.parquet
  - **/details_harness|hendrycksTest-college_mathematics|5_2023-07-18T14:25:52.300291.parquet
  - **/details_harness|hendrycksTest-college_medicine|5_2023-07-18T14:25:52.300291.parquet
  - **/details_harness|hendrycksTest-college_physics|5_2023-07-18T14:25:52.300291.parquet
  - **/details_harness|hendrycksTest-computer_security|5_2023-07-18T14:25:52.300291.parquet
  - **/details_harness|hendrycksTest-conceptual_physics|5_2023-07-18T14:25:52.300291.parquet
  - **/details_harness|hendrycksTest-econometrics|5_2023-07-18T14:25:52.300291.parquet
  - **/details_harness|hendrycksTest-electrical_engineering|5_2023-07-18T14:25:52.300291.parquet
  - **/details_harness|hendrycksTest-elementary_mathematics|5_2023-07-18T14:25:52.300291.parquet
  - **/details_harness|hendrycksTest-formal_logic|5_2023-07-18T14:25:52.300291.parquet
  - **/details_harness|hendrycksTest-global_facts|5_2023-07-18T14:25:52.300291.parquet
  - **/details_harness|hendrycksTest-high_school_biology|5_2023-07-18T14:25:52.300291.parquet
  - **/details_harness|hendrycksTest-high_school_chemistry|5_2023-07-18T14:25:52.300291.parquet
  - **/details_harness|hendrycksTest-high_school_computer_science|5_2023-07-18T14:25:52.300291.parquet
  - **/details_harness|hendrycksTest-high_school_european_history|5_2023-07-18T14:25:52.300291.parquet
  - **/details_harness|hendrycksTest-high_school_geography|5_2023-07-18T14:25:52.300291.parquet
  - **/details_harness|hendrycksTest-high_school_government_and_politics|5_2023-07-18T14:25:52.300291.parquet
  - **/details_harness|hendrycksTest-high_school_macroeconomics|5_2023-07-18T14:25:52.300291.parquet
  - **/details_harness|hendrycksTest-high_school_mathematics|5_2023-07-18T14:25:52.300291.parquet
  - **/details_harness|hendrycksTest-high_school_microeconomics|5_2023-07-18T14:25:52.300291.parquet
  - **/details_harness|hendrycksTest-high_school_physics|5_2023-07-18T14:25:52.300291.parquet
  - **/details_harness|hendrycksTest-high_school_psychology|5_2023-07-18T14:25:52.300291.parquet
  - **/details_harness|hendrycksTest-high_school_statistics|5_2023-07-18T14:25:52.300291.parquet
  - **/details_harness|hendrycksTest-high_school_us_history|5_2023-07-18T14:25:52.300291.parquet
  - **/details_harness|hendrycksTest-high_school_world_history|5_2023-07-18T14:25:52.300291.parquet
  - **/details_harness|hendrycksTest-human_aging|5_2023-07-18T14:25:52.300291.parquet
  - **/details_harness|hendrycksTest-human_sexuality|5_2023-07-18T14:25:52.300291.parquet
  - **/details_harness|hendrycksTest-international_law|5_2023-07-18T14:25:52.300291.parquet
  - **/details_harness|hendrycksTest-jurisprudence|5_2023-07-18T14:25:52.300291.parquet
  - **/details_harness|hendrycksTest-logical_fallacies|5_2023-07-18T14:25:52.300291.parquet
  - **/details_harness|hendrycksTest-machine_learning|5_2023-07-18T14:25:52.300291.parquet
  - **/details_harness|hendrycksTest-management|5_2023-07-18T14:25:52.300291.parquet
  - **/details_harness|hendrycksTest-marketing|5_2023-07-18T14:25:52.300291.parquet
  - **/details_harness|hendrycksTest-medical_genetics|5_2023-07-18T14:25:52.300291.parquet
  - **/details_harness|hendrycksTest-miscellaneous|5_2023-07-18T14:25:52.300291.parquet
  - **/details_harness|hendrycksTest-moral_disputes|5_2023-07-18T14:25:52.300291.parquet
  - **/details_harness|hendrycksTest-moral_scenarios|5_2023-07-18T14:25:52.300291.parquet
  - **/details_harness|hendrycksTest-nutrition|5_2023-07-18T14:25:52.300291.parquet
  - **/details_harness|hendrycksTest-philosophy|5_2023-07-18T14:25:52.300291.parquet
  - **/details_harness|hendrycksTest-prehistory|5_2023-07-18T14:25:52.300291.parquet
  - **/details_harness|hendrycksTest-professional_accounting|5_2023-07-18T14:25:52.300291.parquet
  - **/details_harness|hendrycksTest-professional_law|5_2023-07-18T14:25:52.300291.parquet
  - `**/details_harness|hendrycksTest-professional_medicine|

搜集汇总

数据集介绍

构建方式

该数据集是在Open LLM Leaderboard对eachadea/vicuna-13b模型进行自动化评估的过程中生成的。数据集包含64个配置，每个配置对应一个被评估的任务，这些任务涵盖ARC挑战、DROP、GSM8K、HellaSwag以及涵盖57个学科的HendrycksTest等多个基准测试。每个配置均包含多个分割，其中以时间戳命名的分割对应每一次评估运行的结果，而'train'分割始终指向最新一次运行的数据。此外，一个名为'results'的配置存储了所有运行的聚合结果，用于在Leaderboard上计算和展示综合指标。

使用方法

研究者可通过Hugging Face的datasets库便捷加载该数据集。例如，使用load_dataset函数并指定配置名称（如'harness_winogrande_5'）和分割（如'train'），即可获取最新评估的详细结果。若需回溯历史运行，可通过时间戳分割名称（如'2023_10_15T06_05_43.185046'）加载特定批次的数据。此外，'results'配置提供了所有运行结果的聚合JSON文件，可直接解析以获取模型在各任务上的综合指标，如准确率、F1分数等。

背景与挑战

背景概述

在大型语言模型迅猛发展的浪潮中，如何系统性地评估模型性能成为学术界与工业界共同关注的焦点。Hugging Face团队于2023年创立了Open LLM Leaderboard，旨在为开源大语言模型提供标准化、可复现的评测基准。该数据集记录了eachadea/vicuna-13b模型在多个任务上的详细评估结果，涵盖ARC挑战集、DROP、GSM8K、HellaSwag及涵盖57个学科的MMLU等多样化测试。由Clémentine Fourrier主导的这一项目，通过自动化的评估流水线，为研究者提供了模型在推理、数学、常识及专业知识等多维度能力的量化指标，对推动开源LLM的透明化比较与迭代优化产生了深远影响。

当前挑战

该数据集所面临的挑战首先体现在评测任务的多样性上，需同时覆盖从常识推理到专业学科等跨度极大的领域，这对模型的泛化能力提出了严苛要求。具体而言，vicuna-13b在DROP任务中F1值仅0.061，在GSM8K数学推理中准确率仅7.58%，暴露出模型在复杂推理与精确计算方面的显著短板。构建过程中，评估结果的时效性与可复现性构成另一重挑战，数据集需记录多次运行的时间戳与对应结果，确保不同时间点的评测数据可追溯。此外，面对MMLU中57个细粒度学科，如何统一评测标准并处理各子任务间的结果聚合，也对数据组织架构的灵活性与准确性提出了较高要求。

常用场景

经典使用场景

在大型语言模型（LLM）迅猛发展的浪潮中，对模型性能进行系统化、标准化的评估成为推动技术进步的关键环节。open-llm-leaderboard-old/details_eachadea__vicuna-13b数据集正是为此而生，它记录了Vicuna-13b模型在Open LLM Leaderboard上的完整评估轨迹。该数据集的核心用途在于为研究者提供一个细粒度的、多任务维度的模型性能快照，涵盖从常识推理（如ARC Challenge、HellaSwag）到数学解题（GSM8K）、阅读理解（DROP）以及广泛的多学科知识（MMLU）等64项配置任务。通过加载特定任务配置下的详细结果，研究人员能够深入剖析模型在不同能力维度上的优劣表现，从而为模型优化提供精准的数据支撑。

解决学术问题

该数据集精准回应了学术界长期存在的一个核心难题：如何构建一个透明、可复现且具备多维度评估能力的LLM评测体系。传统上，模型评估往往局限于单一基准或零散的实验结果，缺乏统一的比较框架。此数据集通过标准化流程，将每次评估的运行记录、时间戳和聚合指标完整保存，使得研究者能够追溯模型性能的演变历程。它解决了跨模型、跨时间点性能对比的客观性难题，为理解模型能力边界、诊断模型缺陷（如在不同学科知识上的表现差异）提供了可靠的实证基础。其意义在于推动了LLM评估从主观描述向数据驱动的科学范式转变，显著增强了学术研究的可复现性和结论的严谨性。

实际应用

在实际应用层面，该数据集为LLM的选型与部署提供了无可替代的决策依据。企业在选择适合特定业务场景的模型时，例如需要高精度数学推理的金融计算或需要广泛常识的客服系统，可以依据该数据集中Vicuna-13b在GSM8K和MMLU等任务上的详尽表现，做出数据驱动的选择。此外，数据集中的错误率与置信区间等统计信息，有助于开发者评估模型在现实世界中的稳定性与可靠性。对于模型服务商而言，这些细粒度结果还能用于构建模型能力雷达图，向客户直观展示模型的优势与局限，从而在模型营销与技术透明之间取得平衡。

数据集最近研究