open-llm-leaderboard-old/details_luqmanxyz__LelaStarling-7B

Name: open-llm-leaderboard-old/details_luqmanxyz__LelaStarling-7B
Creator: open-llm-leaderboard-old
Published: 2024-01-21 03:24:44
License: 暂无描述

Hugging Face2024-01-21 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/open-llm-leaderboard-old/details_luqmanxyz__LelaStarling-7B

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是在模型 luqmanxyz/LelaStarling-7B 在 Open LLM Leaderboard 上的评估运行期间自动创建的。数据集由 63 个配置组成，每个配置对应一个评估任务。它包含一次运行的结果，每次运行在每个配置中表示为特定的分割。train 分割始终指向最新的结果。一个名为 results 的额外配置存储了运行的所有聚合结果，这些结果用于计算和显示 Open LLM Leaderboard 上的聚合指标。README 还提供了如何使用 Python 中的 datasets 库加载运行详情的示例。

提供机构：

open-llm-leaderboard-old

原始信息汇总

数据集概述

数据集基本信息

数据集名称: Evaluation run of luqmanxyz/LelaStarling-7B
数据集描述: 该数据集是在模型 luqmanxyz/LelaStarling-7B 在 Open LLM Leaderboard 上的评估运行期间自动创建的。
数据集组成: 包含 63 个配置，每个配置对应一个评估任务。
数据集来源: 从 1 次运行中创建，每个运行可以在每个配置中找到特定的分割，分割名称使用运行的时间戳。"train" 分割始终指向最新结果。
额外配置: "results" 配置存储所有运行的聚合结果，用于计算和显示 Open LLM Leaderboard 上的聚合指标。

数据加载示例

python from datasets import load_dataset data = load_dataset("open-llm-leaderboard/details_luqmanxyz__LelaStarling-7B", "harness_winogrande_5", split="train")

配置信息

配置名称: harness_arc_challenge_25
- 数据文件:
  - 分割: 2024_01_21T03_22_03.188309
    - 路径: **/details_harness|arc:challenge|25_2024-01-21T03-22-03.188309.parquet
  - 分割: latest
    - 路径: **/details_harness|arc:challenge|25_2024-01-21T03-22-03.188309.parquet
配置名称: harness_gsm8k_5
- 数据文件:
  - 分割: 2024_01_21T03_22_03.188309
    - 路径: **/details_harness|gsm8k|5_2024-01-21T03-22-03.188309.parquet
  - 分割: latest
    - 路径: **/details_harness|gsm8k|5_2024-01-21T03-22-03.188309.parquet
配置名称: harness_hellaswag_10
- 数据文件:
  - 分割: 2024_01_21T03_22_03.188309
    - 路径: **/details_harness|hellaswag|10_2024-01-21T03-22-03.188309.parquet
  - 分割: latest
    - 路径: **/details_harness|hellaswag|10_2024-01-21T03-22-03.188309.parquet
配置名称: harness_hendrycksTest_5
- 数据文件:
  - 分割: 2024_01_21T03_22_03.188309
    - 路径:
      - **/details_harness|hendrycksTest-abstract_algebra|5_2024-01-21T03-22-03.188309.parquet
      - **/details_harness|hendrycksTest-anatomy|5_2024-01-21T03-22-03.188309.parquet
      - **/details_harness|hendrycksTest-astronomy|5_2024-01-21T03-22-03.188309.parquet
      - **/details_harness|hendrycksTest-business_ethics|5_2024-01-21T03-22-03.188309.parquet
      - **/details_harness|hendrycksTest-clinical_knowledge|5_2024-01-21T03-22-03.188309.parquet
      - **/details_harness|hendrycksTest-college_biology|5_2024-01-21T03-22-03.188309.parquet
      - **/details_harness|hendrycksTest-college_chemistry|5_2024-01-21T03-22-03.188309.parquet
      - **/details_harness|hendrycksTest-college_computer_science|5_2024-01-21T03-22-03.188309.parquet
      - **/details_harness|hendrycksTest-college_mathematics|5_2024-01-21T03-22-03.188309.parquet
      - **/details_harness|hendrycksTest-college_medicine|5_2024-01-21T03-22-03.188309.parquet
      - **/details_harness|hendrycksTest-college_physics|5_2024-01-21T03-22-03.188309.parquet
      - **/details_harness|hendrycksTest-computer_security|5_2024-01-21T03-22-03.188309.parquet
      - **/details_harness|hendrycksTest-conceptual_physics|5_2024-01-21T03-22-03.188309.parquet
      - **/details_harness|hendrycksTest-econometrics|5_2024-01-21T03-22-03.188309.parquet
      - **/details_harness|hendrycksTest-electrical_engineering|5_2024-01-21T03-22-03.188309.parquet
      - **/details_harness|hendrycksTest-elementary_mathematics|5_2024-01-21T03-22-03.188309.parquet
      - **/details_harness|hendrycksTest-formal_logic|5_2024-01-21T03-22-03.188309.parquet
      - **/details_harness|hendrycksTest-global_facts|5_2024-01-21T03-22-03.188309.parquet
      - **/details_harness|hendrycksTest-high_school_biology|5_2024-01-21T03-22-03.188309.parquet
      更多路径...
  - 分割: latest
    - 路径:
      - **/details_harness|hendrycksTest-abstract_algebra|5_2024-01-21T03-22-03.188309.parquet
      - **/details_harness|hendrycksTest-anatomy|5_2024-01-21T03-22-03.188309.parquet
      - **/details_harness|hendrycksTest-astronomy|5_2024-01-21T03-22-03.188309.parquet
      - **/details_harness|hendrycksTest-business_ethics|5_2024-01-21T03-22-03.188309.parquet
      - **/details_harness|hendrycksTest-clinical_knowledge|5_2024-01-21T03-22-03.188309.parquet
      - **/details_harness|hendrycksTest-college_biology|5_2024-01-21T03-22-03.188309.parquet
      - **/details_harness|hendrycksTest-college_chemistry|5_2024-01-21T03-22-03.188309.parquet
      - **/details_harness|hendrycksTest-college_computer_science|5_2024-01-21T03-22-03.188309.parquet
      - **/details_harness|hendrycksTest-college_mathematics|5_2024-01-21T03-22-03.188309.parquet
      - **/details_harness|hendrycksTest-college_medicine|5_2024-01-21T03-22-03.188309.parquet
      - **/details_harness|hendrycksTest-college_physics|5_2024-01-21T03-22-03.188309.parquet
      - **/details_harness|hendrycksTest-computer_security|5_2024-01-21T03-22-03.188309.parquet
      - **/details_harness|hendrycksTest-conceptual_physics|5_2024-01-21T03-22-03.188309.parquet
      - **/details_harness|hendrycksTest-econometrics|5_2024-01-21T03-22-03.188309.parquet
      - **/details_harness|hendrycksTest-electrical_engineering|5_2024-01-21T03-22-03.188309.parquet
      - **/details_harness|hendrycksTest-elementary_mathematics|5_2024-01-21T03-22-03.188309.parquet
      - **/details_harness|hendrycksTest-formal_logic|5_2024-01-21T03-22-03.188309.parquet
      - **/details_harness|hendrycksTest-global_facts|5_2024-01-21T03-22-03.188309.parquet
      - **/details_harness|hendrycksTest-high_school_biology|5_2024-01-21T03-22-03.188309.parquet
      更多路径...

搜集汇总

数据集介绍

构建方式

该数据集是在Open LLM Leaderboard对模型luqmanxyz/LelaStarling-7B进行评估的过程中自动生成的。它由63个配置构成，每个配置对应一个被评估的任务。数据集基于一次运行创建，每次运行在配置中作为一个特定的分割存在，分割以运行的时间戳命名。'train'分割始终指向最新的结果。此外，还有一个额外的'results'配置用于存储所有聚合结果，这些结果用于计算和展示Open LLM Leaderboard上的聚合指标。

特点

数据集的特点在于其结构化的组织方式，能够清晰记录模型在多个基准任务上的表现。每个配置独立存储对应任务的评估细节，便于按需访问。时间戳分割的设计确保了历史结果的可追溯性，而'train'分割则自动指向最新数据，简化了结果更新流程。聚合结果配置进一步提供了全局视角，使得模型性能的横向对比与总体评估变得直观高效。

使用方法

使用该数据集时，可通过Hugging Face的datasets库加载。用户需指定配置名称（如'harness_winogrande_5'）和分割（如'train'）来获取特定任务的评估详情。例如，使用load_dataset函数即可加载数据。对于聚合结果，可直接访问'results'配置。这种设计支持灵活检索，既可用于分析模型在单一任务上的细粒度表现，也能通过聚合数据快速评估整体能力。

背景与挑战

背景概述

大语言模型（LLM）的迅猛发展催生了对其性能进行系统性评估的迫切需求，Open LLM Leaderboard 应运而生，成为衡量模型在多样化自然语言理解与推理任务上表现的重要标杆。该数据集由 Hugging Face 团队于 2024 年创建，核心联系人 Clémentine Fourrier 等研究者围绕 luqmanxyz/LelaStarling-7B 这一 70 亿参数模型，在 63 个任务配置上开展了一次全面的评估运行。评估覆盖了常识推理（如 HellaSwag、Winogrande）、数学推理（GSM8K）、知识问答（MMLU 涵盖 57 个学科）以及事实一致性（TruthfulQA）等维度，旨在揭示模型在不同认知层级上的能力边界。这一评估结果不仅为 LelaStarling-7B 模型提供了多维度的性能画像，也为社区对比不同架构与训练策略的模型提供了可复现的基准，推动了 LLM 评估范式的标准化进程。

当前挑战

该数据集所承载的评估体系面临多重挑战。首先，从领域问题层面看，LLM 在复杂推理任务中仍显薄弱，例如 LelaStarling-7B 在 MMLU 的大学数学（32.0%）、高等数学（33.7%）和形式逻辑（50.8%）等需要深层逻辑链的任务上准确率偏低，暴露出模型在抽象符号操作与多步推理方面的局限。其次，在构建过程中，评估结果高度依赖提示模板的选取与少样本示例的配置，不同的设置可能引发显著的性能波动，如何确保评估的公平性与泛化性是一大难题。此外，数据集仅包含单次运行的结果，缺乏多次重复实验以量化随机性带来的不确定性，使得性能指标的统计显著性存疑。最后，现有评估任务多为静态范式，难以捕捉模型在动态交互或长文本生成场景下的表现，这限制了评估生态对现实应用需求的覆盖广度。

常用场景

经典使用场景

在大型语言模型的性能评估领域，该数据集作为Open LLM Leaderboard的评测结果存储库，为研究者提供了模型luqmanxyz/LelaStarling-7B在63个任务配置上的细粒度表现数据。其经典使用场景在于通过加载特定任务的配置（如harness_winogrande_5），获取模型在常识推理、数学求解、知识问答等维度的准确率与标准差，从而系统性地刻画模型的能力边界。这种结构化、可复现的评估范式，使得研究者能够基于统一基准横向对比不同模型的优劣。

实际应用

在实际应用中，该数据集可作为模型选型与部署决策的参考依据。开发者通过分析LelaStarling-7B在Winogrande（代词消解）与TruthfulQA（事实性）等任务上的表现，可判断其在对话系统、教育辅导或专业问答场景中的适用性。例如，其在GSM8K数学任务上71.1%的准确率暗示了其在逻辑推理型应用中的潜力，而MMLU多学科成绩则能指导领域定制化模型的微调方向。

衍生相关工作

该数据集衍生了多项经典工作，包括基于其评测结果开展的模型能力诊断研究、跨模型对比分析以及评估基准的优化探索。研究者利用这些细粒度数据，开发了诸如任务难度自适应加权、模型能力图谱可视化等工具。此外，该数据集还支撑了关于模型规模与性能关系的实证分析，以及针对特定失败案例的归因研究，为后续如LelaStarling系列模型的改进版本提供了关键的性能基线。

以上内容由遇见数据集搜集并总结生成

open-llm-leaderboard-old/details_luqmanxyz__LelaStarling-7B

数据集概述

数据集基本信息

数据加载示例

最新结果

更多任务结果...

配置信息

更多路径...

更多路径...