open-llm-leaderboard/details_lmsys__vicuna-13b-v1.5

Name: open-llm-leaderboard/details_lmsys__vicuna-13b-v1.5
Creator: open-llm-leaderboard
Published: 2023-10-15 01:22:46
License: 暂无描述

Hugging Face2023-10-15 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/open-llm-leaderboard/details_lmsys__vicuna-13b-v1.5

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是在模型 lmsys/vicuna-13b-v1.5 在 Open LLM Leaderboard 上的评估运行过程中自动生成的。数据集由64个配置组成，每个配置对应一个被评估的任务。数据集由2次运行生成，每次运行在每个配置中表示为特定的分割，分割名称由运行的时间戳命名。train 分割始终指向最新的结果。此外，名为 results 的配置存储了所有运行的聚合结果，用于计算和显示 Open LLM Leaderboard 上的聚合指标。README 还提供了一个 Python 代码片段，用于加载运行中的详细信息，并包含了特定运行的最新结果。

提供机构：

open-llm-leaderboard

原始信息汇总

数据集概述

数据集是在对模型 lmsys/vicuna-13b-v1.5 进行评估运行期间自动创建的，用于 Open LLM Leaderboard。

数据集组成

数据集包含 64 个配置，每个配置对应一个评估任务。
数据集从 2 次运行中创建，每次运行可以在每个配置中找到特定的分割，分割名称使用运行的时间戳。
"train" 分割始终指向最新的结果。
一个额外的配置 "results" 存储所有运行的聚合结果，用于计算和显示 Open LLM Leaderboard 上的聚合指标。

加载数据集示例

python from datasets import load_dataset data = load_dataset("open-llm-leaderboard/details_lmsys__vicuna-13b-v1.5", "harness_winogrande_5", split="train")

配置详情

harness_arc_challenge_25
- 分割：2023_08_09T10_24_27.985087
  - 路径：**/details_harness|arc:challenge|25_2023-08-09T10:24:27.985087.parquet
- 分割：latest
  - 路径：**/details_harness|arc:challenge|25_2023-08-09T10:24:27.985087.parquet
harness_drop_3
- 分割：2023_10_15T01_22_33.237446
  - 路径：**/details_harness|drop|3_2023-10-15T01-22-33.237446.parquet
- 分割：latest
  - 路径：**/details_harness|drop|3_2023-10-15T01-22-33.237446.parquet
harness_gsm8k_5
- 分割：2023_10_15T01_22_33.237446
  - 路径：**/details_harness|gsm8k|5_2023-10-15T01-22-33.237446.parquet
- 分割：latest
  - 路径：**/details_harness|gsm8k|5_2023-10-15T01-22-33.237446.parquet
harness_hellaswag_10
- 分割：2023_08_09T10_24_27.985087
  - 路径：**/details_harness|hellaswag|10_2023-08-09T10:24:27.985087.parquet
- 分割：latest
  - 路径：**/details_harness|hellaswag|10_2023-08-09T10:24:27.985087.parquet
harness_hendrycksTest_5
- 分割：2023_08_09T10_24_27.985087
  - 路径：
    - **/details_harness|hendrycksTest-abstract_algebra|5_2023-08-09T10:24:27.985087.parquet
    - **/details_harness|hendrycksTest-anatomy|5_2023-08-09T10:24:27.985087.parquet
    - **/details_harness|hendrycksTest-astronomy|5_2023-08-09T10:24:27.985087.parquet
    - **/details_harness|hendrycksTest-business_ethics|5_2023-08-09T10:24:27.985087.parquet
    - **/details_harness|hendrycksTest-clinical_knowledge|5_2023-08-09T10:24:27.985087.parquet
    - **/details_harness|hendrycksTest-college_biology|5_2023-08-09T10:24:27.985087.parquet
    - **/details_harness|hendrycksTest-college_chemistry|5_2023-08-09T10:24:27.985087.parquet
    - **/details_harness|hendrycksTest-college_computer_science|5_2023-08-09T10:24:27.985087.parquet
    - **/details_harness|hendrycksTest-college_mathematics|5_2023-08-09T10:24:27.985087.parquet
    - **/details_harness|hendrycksTest-college_medicine|5_2023-08-09T10:24:27.985087.parquet
    - **/details_harness|hendrycksTest-college_physics|5_2023-08-09T10:24:27.985087.parquet
    - **/details_harness|hendrycksTest-computer_security|5_2023-08-09T10:24:27.985087.parquet
    - **/details_harness|hendrycksTest-conceptual_physics|5_2023-08-09T10:24:27.985087.parquet
    - **/details_harness|hendrycksTest-econometrics|5_2023-08-09T10:24:27.985087.parquet
    - **/details_harness|hendrycksTest-electrical_engineering|5_2023-08-09T10:24:27.985087.parquet
    - **/details_harness|hendrycksTest-elementary_mathematics|5_2023-08-09T10:24:27.985087.parquet
    - **/details_harness|hendrycksTest-formal_logic|5_2023-08-09T10:24:27.985087.parquet
    - **/details_harness|hendrycksTest-global_facts|5_2023-08-09T10:24:27.985087.parquet
    - **/details_harness|hendrycksTest-high_school_biology|5_2023-08-09T10:24:27.985087.parquet
    - **/details_harness|hendrycksTest-high_school_chemistry|5_2023-08-09T10:24:27.985087.parquet
    - **/details_harness|hendrycksTest-high_school_computer_science|5_2023-08-09T10:24:27.985087.parquet
    - **/details_harness|hendrycksTest-high_school_european_history|5_2023-08-09T10:24:27.985087.parquet
    - **/details_harness|hendrycksTest-high_school_geography|5_2023-08-09T10:24:27.985087.parquet
    - **/details_harness|hendrycksTest-high_school_government_and_politics|5_2023-08-09T10:24:27.985087.parquet
    - **/details_harness|hendrycksTest-high_school_macroeconomics|5_2023-08-09T10:24:27.985087.parquet
    - **/details_harness|hendrycksTest-high_school_mathematics|5_2023-08-09T10:24:27.985087.parquet
    - **/details_harness|hendrycksTest-high_school_microeconomics|5_2023-08-09T10:24:27.985087.parquet
    - **/details_harness|hendrycksTest-high_school_physics|5_2023-08-09T10:24:27.985087.parquet
    - **/details_harness|hendrycksTest-high_school_psychology|5_2023-08-09T10:24:27.985087.parquet
    - **/details_harness|hendrycksTest-high_school_statistics|5_2023-08-09T10:24:27.985087.parquet
    - **/details_harness|hendrycksTest-high_school_us_history|5_2023-08-09T10:24:27.985087.parquet
    - **/details_harness|hendrycksTest-high_school_world_history|5_2023-08-09T10:24:27.985087.parquet
    - **/details_harness|hendrycksTest-human_aging|5_2023-08-09T10:24:27.985087.parquet
    - **/details_harness|hendrycksTest-human_sexuality|5_2023-08-09T10:24:27.985087.parquet
    - **/details_harness|hendrycksTest-international_law|5_2023-08-09T10:24:27.985087.parquet
    - **/details_harness|hendrycksTest-jurisprudence|5_2023-08-09T10:24:27.985087.parquet
    - **/details_harness|hendrycksTest-logical_fallacies|5_2023-08-09T10:24:27.985087.parquet
    - **/details_harness|hendrycksTest-machine_learning|5_2023-08-09T10:24:27.985087.parquet
    - **/details_harness|hendrycksTest-management|5_2023-08-09T10:24:27.985087.parquet
    - **/details_harness|hendrycksTest-marketing|5_2023-08-09T10:24:27.985087.parquet
    - **/details_harness|hendrycksTest-medical_genetics|5_2023-08-09T10:24:27.985087.parquet
    - **/details_harness|hendrycksTest-miscellaneous|5_2023-08-09T10:24:27.985087.parquet
    - **/details_harness|hendrycksTest-moral_disputes|5_2023-08-09T10:24:27.985087.parquet
    - **/details_harness|hendrycksTest-moral_scenarios|5_2023-08-09T10:24:27.985087.parquet
    - **/details_harness|hendrycksTest-nutrition|5_2023-08-09T10:24:27.985087.parquet
    - **/details_harness|hendrycksTest-philosophy|5_2023-08-09T10:24:27.985087.parquet
    - **/details_harness|hendrycksTest-prehistory|5_2023-08-09T10:24:27.985087.parquet
    - **/details_harness|hendrycksTest-professional_accounting|5_2023-08-09T10:24:27.985087.parquet
    - **/details_harness|hendrycksTest-professional_law|5_2023-08-09T10:24:27.985087.parquet
    - `**/details_harness|hendrycksTest-professional_medicine|

搜集汇总

数据集介绍

构建方式

在大语言模型评测领域，对模型性能的客观量化是推动技术进步的关键环节。该数据集是Open LLM Leaderboard在评测lmsys/vicuna-13b-v1.5模型时自动生成的产物。其构建过程基于多次评测运行，每次运行均对应一个独立的配置项，配置名称与评测任务一一对应，例如harness_winogrande_5。每个配置项内包含以时间戳命名的数据分割，用以存储对应运行时的详细评测结果。数据集还设有名为“results”的额外配置，专门聚合所有运行的综合指标，为排行榜上的最终展示提供数据支撑。

特点

该数据集的核心特点在于其结构化的多配置设计与时间维度的可追溯性。它涵盖了64个评测任务配置，横跨ARC、DROP、GSM8K、HellaSwag、MMLU等主流基准测试，全面反映了模型在推理、数学、常识等多维度的能力。每个配置下的“latest”分割始终指向最近一次运行的结果，而历史运行数据则以时间戳分割的形式完整保留，既确保了结果更新的即时性，又实现了评测历史的透明化存档。这种设计使得研究者能够精准追踪模型性能的演进轨迹。

使用方法

研究者可通过Hugging Face的datasets库便捷地加载和使用该数据集。加载时需指定具体的配置名称（如harness_winogrande_5）和目标分割（如“train”以获取最新结果），例如执行`load_dataset("open-llm-leaderboard/details_lmsys__vicuna-13b-v1.5", "harness_winogrande_5", split="train")`。若要访问历史运行数据，可将分割参数替换为对应的时间戳字符串。此外，数据集中的“results”配置提供了聚合后的全局指标，便于进行跨模型的快速对比分析。

背景与挑战

背景概述

在大型语言模型（LLM）领域，模型性能的客观评估是推动技术进步的关键环节。由HuggingFace团队于2023年创建的Open LLM Leaderboard，旨在为社区提供一个标准化、透明的模型评测平台。该数据集记录了lmsys/vicuna-13b-v1.5模型在Leaderboard上的详细评估结果，涵盖了从常识推理（如HellaSwag）到数学问题求解（如GSM8K）等64个多样化任务。这一工作由LMSys组织与HuggingFace合作完成，其核心研究问题在于如何通过多维度、细粒度的基准测试，全面揭示模型的真实能力。该数据集的发布不仅为Vicuna模型的性能提供了可复现的量化证据，更推动了LLM评估范式的标准化，对后续模型研发与比较产生了深远影响。

当前挑战

该数据集所解决的领域问题在于，LLM评测长期面临任务单一、指标不统一、结果难以复现等困境，亟需一个涵盖广泛能力维度的标准化评估框架。构建过程中，挑战尤为严峻：首先，需从数十个公开基准（如ARC、DROP、MMLU等）中筛选并整合出64个任务配置，确保覆盖语言理解、推理、知识记忆等多方面能力，同时保持任务难度与规模的平衡；其次，每次模型评估需运行多次（如本数据集包含2次运行记录），以应对模型输出的随机性，并需设计高效的数据存储与版本管理机制（如按时间戳分割数据），以支持后续分析与比对；最后，聚合结果的展示与计算（如em、f1、acc等指标）需兼顾不同任务的特性，避免因指标选择不当而扭曲模型真实表现。

常用场景

经典使用场景

在大规模语言模型性能评估的学术脉络中，Open LLM Leaderboard上的Vicuna-13B-v1.5评估数据集扮演着基准测试的核心角色。该数据集通过整合ARC、HellaSwag、MMLU、Winogrande、GSM8K及DROP等多样化任务，为研究者提供了系统评估模型在常识推理、数学解题、文本理解及知识掌握等多维度能力的标准化框架。研究者常利用此数据集进行模型间横向对比，或追踪同一模型在不同训练阶段的能力演化轨迹，从而揭示模型架构与训练策略的优劣。

解决学术问题

该数据集精准回应了开源大模型领域长期存在的评估碎片化与不可复现问题。通过统一的任务配置、标准化的评估流程及公开的细粒度结果，它解决了不同研究团队因评估基准不统一而导致的结论难以比较的困境。其意义在于为社区提供了透明、可追溯的模型性能档案，使研究者能基于可靠数据验证假设，推动了对模型泛化能力、鲁棒性及知识边界等核心学术议题的深入探索。

衍生相关工作

该评估数据集催生了一系列富有影响力的后续研究。一方面，其公开的评估日志与结果数据被广泛用于训练性能预测模型，例如利用历史评估指标预测新模型的能力上限；另一方面，研究者基于该数据集中的失败案例，开发了针对性增强技术，如课程学习与对抗训练策略，显著提升了模型在复杂推理任务上的表现。此外，该数据集的评估框架设计思路被后续多个排行榜（如LMSYS Chatbot Arena）所借鉴，推动了开源大模型评估体系的标准化与规模化发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集