open-llm-leaderboard/details_Qwen__Qwen2-1.5B

Name: open-llm-leaderboard/details_Qwen__Qwen2-1.5B
Creator: open-llm-leaderboard
Published: 2024-05-30 12:41:38
License: 暂无描述

Hugging Face2024-05-30 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/open-llm-leaderboard/details_Qwen__Qwen2-1.5B

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是在Open LLM Leaderboard上对Qwen/Qwen2-1.5B模型进行评估时自动创建的。数据集由63个配置组成，每个配置对应一个被评估的任务。数据集是从一次运行中生成的，每次运行在每个配置中表示为特定的分割，train分割始终指向最新的结果。此外，还有一个results配置，存储了所有运行的聚合结果，用于计算和显示Open LLM Leaderboard上的聚合指标。README还提供了如何使用`datasets`库中的`load_dataset`函数加载运行细节的示例。

提供机构：

open-llm-leaderboard

原始信息汇总

数据集概述

数据集名称

pretty_name: Evaluation run of Qwen/Qwen2-1.5B

数据集来源

自动创建于模型Qwen/Qwen2-1.5B在Open LLM Leaderboard的评估运行过程中。

数据集组成

包含63个配置，每个配置对应一个评估任务。
数据集由1次运行创建，每次运行在每个配置中作为一个特定的分割存在，分割名称使用运行的时间戳命名。
存在一个名为"results"的额外配置，存储所有运行的聚合结果，用于计算和显示聚合指标。

数据集加载示例

python from datasets import load_dataset data = load_dataset("open-llm-leaderboard/details_Qwen__Qwen2-1.5B_private", "harness_winogrande_5", split="train")

配置详情

config_name: harness_arc_challenge_25
- data_files:
  - split: 2024_05_30T12_39_22.414033
    - path: /details_harness|arc:challenge|25_2024-05-30T12-39-22.414033.parquet
  - split: latest
    - path: /details_harness|arc:challenge|25_2024-05-30T12-39-22.414033.parquet
config_name: harness_gsm8k_5
- data_files:
  - split: 2024_05_30T12_39_22.414033
    - path: /details_harness|gsm8k|5_2024-05-30T12-39-22.414033.parquet
  - split: latest
    - path: /details_harness|gsm8k|5_2024-05-30T12-39-22.414033.parquet
config_name: harness_hellaswag_10
- data_files:
  - split: 2024_05_30T12_39_22.414033
    - path: /details_harness|hellaswag|10_2024-05-30T12-39-22.414033.parquet
  - split: latest
    - path: /details_harness|hellaswag|10_2024-05-30T12-39-22.414033.parquet
config_name: harness_hendrycksTest_5
- data_files:
  - split: 2024_05_30T12_39_22.414033
    - path:
      - /details_harness|hendrycksTest-abstract_algebra|5_2024-05-30T12-39-22.414033.parquet
      - /details_harness|hendrycksTest-anatomy|5_2024-05-30T12-39-22.414033.parquet
      - /details_harness|hendrycksTest-astronomy|5_2024-05-30T12-39-22.414033.parquet
      - /details_harness|hendrycksTest-business_ethics|5_2024-05-30T12-39-22.414033.parquet
      - /details_harness|hendrycksTest-clinical_knowledge|5_2024-05-30T12-39-22.414033.parquet
      - /details_harness|hendrycksTest-college_biology|5_2024-05-30T12-39-22.414033.parquet
      - /details_harness|hendrycksTest-college_chemistry|5_2024-05-30T12-39-22.414033.parquet
      - /details_harness|hendrycksTest-college_computer_science|5_2024-05-30T12-39-22.414033.parquet
      - /details_harness|hendrycksTest-college_mathematics|5_2024-05-30T12-39-22.414033.parquet
      - /details_harness|hendrycksTest-college_medicine|5_2024-05-30T12-39-22.414033.parquet
      - /details_harness|hendrycksTest-college_physics|5_2024-05-30T12-39-22.414033.parquet
      - /details_harness|hendrycksTest-computer_security|5_2024-05-30T12-39-22.414033.parquet
      - /details_harness|hendrycksTest-conceptual_physics|5_2024-05-30T12-39-22.414033.parquet
      - /details_harness|hendrycksTest-econometrics|5_2024-05-30T12-39-22.414033.parquet
      - /details_harness|hendrycksTest-electrical_engineering|5_2024-05-30T12-39-22.414033.parquet
      - /details_harness|hendrycksTest-elementary_mathematics|5_2024-05-30T12-39-22.414033.parquet
      - /details_harness|hendrycksTest-formal_logic|5_2024-05-30T12-39-22.414033.parquet
      - /details_harness|hendrycksTest-global_facts|5_2024-05-30T12-39-22.414033.parquet
      - /details_harness|hendrycksTest-high_school_biology|5_2024-05-30T12-39-22.414033.parquet
      - /details_harness|hendrycksTest-high_school_chemistry|5_2024-05-30T12-39-22.414033.parquet
  - split: latest
    - path:
      - /details_harness|hendrycksTest-abstract_algebra|5_2024-05-30T12-39-22.414033.parquet
      - /details_harness|hendrycksTest-anatomy|5_2024-05-30T12-39-22.414033.parquet
      - /details_harness|hendrycksTest-astronomy|5_2024-05-30T12-39-22.414033.parquet
      - /details_harness|hendrycksTest-business_ethics|5_2024-05-30T12-39-22.414033.parquet
      - /details_harness|hendrycksTest-clinical_knowledge|5_2024-05-30T12-39-22.414033.parquet
      - /details_harness|hendrycksTest-college_biology|5_2024-05-30T12-39-22.414033.parquet
      - /details_harness|hendrycksTest-college_chemistry|5_2024-05-30T12-39-22.414033.parquet
      - /details_harness|hendrycksTest-college_computer_science|5_2024-05-30T12-39-22.414033.parquet
      - /details_harness|hendrycksTest-college_mathematics|5_2024-05-30T12-39-22.414033.parquet
      - /details_harness|hendrycksTest-college_medicine|5_2024-05-30T12-39-22.414033.parquet
      - /details_harness|hendrycksTest-college_physics|5_2024-05-30T12-39-22.414033.parquet
      - /details_harness|hendrycksTest-computer_security|5_2024-05-30T12-39-22.414033.parquet
      - /details_harness|hendrycksTest-conceptual_physics|5_2024-05-30T12-39-22.414033.parquet
      - /details_harness|hendrycksTest-econometrics|5_2024-05-30T12-39-22.414033.parquet
      - /details_harness|hendrycksTest-electrical_engineering|5_2024-05-30T12-39-22.414033.parquet
      - /details_harness|hendrycksTest-elementary_mathematics|5_2024-05-30T12-39-22.414033.parquet
      - /details_harness|hendrycksTest-formal_logic|5_2024-05-30T12-39-22.414033.parquet
      - /details_harness|hendrycksTest-global_facts|5_2024-05-30T12-39-22.414033.parquet
      - /details_harness|hendrycksTest-high_school_biology|5_2024-05-30T12-39-22.414033.parquet
      - /details_harness|hendrycksTest-high_school_chemistry|5_2024-05-30T12-39-22.414033.parquet

搜集汇总

数据集介绍

构建方式

该数据集是在Open LLM Leaderboard框架下，对Qwen/Qwen2-1.5B模型进行自动化评估过程中生成的。数据集包含63个配置，每个配置对应一项评估任务，所有配置均源自单次运行。每次运行的结果以时间戳命名并作为独立分割存储于各配置中，而“train”分割则始终指向最新一次运行的结果。此外，一个名为“results”的附加配置专门用于汇总并存储所有运行的综合指标，这些指标被用于在Open LLM Leaderboard上计算和展示聚合性能。

特点

数据集的结构设计精巧，其核心特征在于以任务为单位进行配置划分，每个配置内嵌了基于时间戳的运行分割，使得研究者能够追溯历史评估结果。最新结果通过“train”分割自动更新，而“results”配置则提供全局视角，囊括了诸如ARC-Challenge、HellaSwag、GSM8K等多样化任务的精确度（acc）与标准化精确度（acc_norm）等细粒度指标。这种多维度、分层次的数据组织方式，为模型性能的纵向比较与横向分析提供了坚实的数据基础。

使用方法

用户可通过HuggingFace的datasets库便捷地加载该数据集。具体而言，调用load_dataset函数并指定数据集名称（如“open-llm-leaderboard/details_Qwen__Qwen2-1.5B_private”）及所需任务配置（如“harness_winogrande_5”），再通过split参数选择“train”或特定时间戳分割，即可获取对应运行下的详细评估数据。这一流程简化了模型性能的复现与深入探究，适用于学术研究与工程实践中的性能验证场景。

背景与挑战

背景概述

大语言模型的迅猛发展催生了对其能力进行系统性评估的迫切需求，Open LLM Leaderboard应运而生，成为衡量模型性能的重要基准平台。该数据集创建于2024年5月，由HuggingFace团队主导，旨在对Qwen2-1.5B模型进行标准化评测，核心研究问题聚焦于量化该模型在多样化自然语言理解与推理任务上的表现。数据集涵盖63个评测配置，涉及ARC-Challenge、HellaSwag、MMLU、TruthfulQA、Winogrande及GSM8K等经典基准，全面覆盖常识推理、知识问答、数学求解及事实一致性等维度。其影响力体现在为社区提供了可复现的评测流程，推动了大语言模型性能比较的透明化与规范化，成为后续模型迭代的重要参照标准。

当前挑战

该数据集面临的挑战体现在两个层面。在领域问题层面，核心挑战在于如何精准衡量模型在复杂推理与知识整合上的真实能力，例如在MMLU的57个学科子集中，模型在抽象代数、大学数学等逻辑密集型任务上表现欠佳，揭示了当前模型在严谨符号推理与跨领域知识迁移方面的局限性。在构建过程中，挑战在于设计统一的评测框架以兼容不同任务的输出格式与评估指标，同时保证多轮运行结果的可比性，例如通过时间戳分割管理多次评测数据，并维护‘latest’分片指向最新结果，确保数据一致性与版本控制的可靠性。

常用场景

经典使用场景

在大型语言模型评估领域，Open LLM Leaderboard上的评估运行数据集为模型性能的横向对比提供了标准化基准。该数据集记录了Qwen2-1.5B模型在63个不同任务配置下的详细评估结果，涵盖ARC挑战集、HellaSwag常识推理、MMLU多学科知识测试以及GSM8K数学推理等经典基准。研究者可通过加载特定任务配置的parquet文件，复现模型在各项指标上的表现，从而深入分析模型的推理能力、知识储备与泛化水平。

衍生相关工作

该数据集衍生了一系列关于语言模型能力边界与评估方法论的研究工作。例如，基于其细粒度结果，研究者提出了任务难度加权评估框架，以更精确地衡量模型综合能力；另一些工作则利用该数据集的错误分布，设计了针对性的对抗样本生成策略，揭示模型在逻辑谬误与道德场景等任务上的脆弱性。此外，该数据集还催生了多轮次评估与模型改进的迭代研究范式。

数据集最近研究