open-llm-leaderboard/details_mncai__Mistral-7B-OpenOrca-1k

Name: open-llm-leaderboard/details_mncai__Mistral-7B-OpenOrca-1k
Creator: open-llm-leaderboard
Published: 2023-10-25 07:41:24
License: 暂无描述

Hugging Face2023-10-25 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/open-llm-leaderboard/details_mncai__Mistral-7B-OpenOrca-1k

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是在模型 mncai/Mistral-7B-OpenOrca-1k 在 Open LLM Leaderboard 上的评估运行期间自动创建的。数据集由 64 个配置组成，每个配置对应一个被评估的任务。数据集是从 2 次运行中生成的，每次运行在每个配置中表示为特定的分割。train 分割始终指向最新的结果。一个名为 results 的额外配置存储了所有运行的聚合结果，这些结果用于计算和显示 Open LLM Leaderboard 上的聚合指标。README 还提供了如何使用 `datasets` 库加载数据集的示例，并包含了特定运行的最新结果。

提供机构：

open-llm-leaderboard

原始信息汇总

数据集概述

数据集简介

该数据集是在评估模型 mncai/Mistral-7B-OpenOrca-1k 在 Open LLM Leaderboard 上的自动创建的。

数据集结构

数据集包含 64 个配置，每个配置对应一个评估任务。
数据集从 2 次运行中创建，每次运行可以在每个配置中找到特定的分割，分割名称使用运行的时间戳。
"train" 分割始终指向最新的结果。
额外的 "results" 配置存储所有运行结果的聚合，用于计算和显示聚合指标在 Open LLM Leaderboard 上。

数据加载示例

python from datasets import load_dataset data = load_dataset("open-llm-leaderboard/details_mncai__Mistral-7B-OpenOrca-1k", "harness_winogrande_5", split="train")

配置详情

harness_arc_challenge_25
- 分割: 2023_10_10T11_19_13.410150
- 路径: **/details_harness|arc:challenge|25_2023-10-10T11-19-13.410150.parquet
- 分割: latest
- 路径: **/details_harness|arc:challenge|25_2023-10-10T11-19-13.410150.parquet
harness_drop_3
- 分割: 2023_10_25T07_41_12.101153
- 路径: **/details_harness|drop|3_2023-10-25T07-41-12.101153.parquet
- 分割: latest
- 路径: **/details_harness|drop|3_2023-10-25T07-41-12.101153.parquet
harness_gsm8k_5
- 分割: 2023_10_25T07_41_12.101153
- 路径: **/details_harness|gsm8k|5_2023-10-25T07-41-12.101153.parquet
- 分割: latest
- 路径: **/details_harness|gsm8k|5_2023-10-25T07-41-12.101153.parquet
harness_hellaswag_10
- 分割: 2023_10_10T11_19_13.410150
- 路径: **/details_harness|hellaswag|10_2023-10-10T11-19-13.410150.parquet
- 分割: latest
- 路径: **/details_harness|hellaswag|10_2023-10-10T11-19-13.410150.parquet
harness_hendrycksTest_5
- 分割: 2023_10_10T11_19_13.410150
- 路径:
  - **/details_harness|hendrycksTest-abstract_algebra|5_2023-10-10T11-19-13.410150.parquet
  - **/details_harness|hendrycksTest-anatomy|5_2023-10-10T11-19-13.410150.parquet
  - **/details_harness|hendrycksTest-astronomy|5_2023-10-10T11-19-13.410150.parquet
  - **/details_harness|hendrycksTest-business_ethics|5_2023-10-10T11-19-13.410150.parquet
  - **/details_harness|hendrycksTest-clinical_knowledge|5_2023-10-10T11-19-13.410150.parquet
  - **/details_harness|hendrycksTest-college_biology|5_2023-10-10T11-19-13.410150.parquet
  - **/details_harness|hendrycksTest-college_chemistry|5_2023-10-10T11-19-13.410150.parquet
  - **/details_harness|hendrycksTest-college_computer_science|5_2023-10-10T11-19-13.410150.parquet
  - **/details_harness|hendrycksTest-college_mathematics|5_2023-10-10T11-19-13.410150.parquet
  - **/details_harness|hendrycksTest-college_medicine|5_2023-10-10T11-19-13.410150.parquet
  - **/details_harness|hendrycksTest-college_physics|5_2023-10-10T11-19-13.410150.parquet
  - **/details_harness|hendrycksTest-computer_security|5_2023-10-10T11-19-13.410150.parquet
  - **/details_harness|hendrycksTest-conceptual_physics|5_2023-10-10T11-19-13.410150.parquet
  - **/details_harness|hendrycksTest-econometrics|5_2023-10-10T11-19-13.410150.parquet
  - **/details_harness|hendrycksTest-electrical_engineering|5_2023-10-10T11-19-13.410150.parquet
  - **/details_harness|hendrycksTest-elementary_mathematics|5_2023-10-10T11-19-13.410150.parquet
  - **/details_harness|hendrycksTest-formal_logic|5_2023-10-10T11-19-13.410150.parquet
  - **/details_harness|hendrycksTest-global_facts|5_2023-10-10T11-19-13.410150.parquet
  - **/details_harness|hendrycksTest-high_school_biology|5_2023-10-10T11-19-13.410150.parquet
  - **/details_harness|hendrycksTest-high_school_chemistry|5_2023-10-10T11-19-13.410150.parquet
  - **/details_harness|hendrycksTest-high_school_computer_science|5_2023-10-10T11-19-13.410150.parquet
  - **/details_harness|hendrycksTest-high_school_european_history|5_2023-10-10T11-19-13.410150.parquet
  - **/details_harness|hendrycksTest-high_school_geography|5_2023-10-10T11-19-13.410150.parquet
  - **/details_harness|hendrycksTest-high_school_government_and_politics|5_2023-10-10T11-19-13.410150.parquet
  - **/details_harness|hendrycksTest-high_school_macroeconomics|5_2023-10-10T11-19-13.410150.parquet
  - **/details_harness|hendrycksTest-high_school_mathematics|5_2023-10-10T11-19-13.410150.parquet
  - **/details_harness|hendrycksTest-high_school_microeconomics|5_2023-10-10T11-19-13.410150.parquet
  - **/details_harness|hendrycksTest-high_school_physics|5_2023-10-10T11-19-13.410150.parquet
  - **/details_harness|hendrycksTest-high_school_psychology|5_2023-10-10T11-19-13.410150.parquet
  - **/details_harness|hendrycksTest-high_school_statistics|5_2023-10-10T11-19-13.410150.parquet
  - **/details_harness|hendrycksTest-high_school_us_history|5_2023-10-10T11-19-13.410150.parquet
  - **/details_harness|hendrycksTest-high_school_world_history|5_2023-10-10T11-19-13.410150.parquet
  - **/details_harness|hendrycksTest-human_aging|5_2023-10-10T11-19-13.410150.parquet
  - **/details_harness|hendrycksTest-human_sexuality|5_2023-10-10T11-19-13.410150.parquet
  - **/details_harness|hendrycksTest-international_law|5_2023-10-10T11-19-13.410150.parquet
  - **/details_harness|hendrycksTest-jurisprudence|5_2023-10-10T11-19-13.410150.parquet
  - **/details_harness|hendrycksTest-logical_fallacies|5_2023-10-10T11-19-13.410150.parquet
  - **/details_harness|hendrycksTest-machine_learning|5_2023-10-10T11-19-13.410150.parquet
  - **/details_harness|hendrycksTest-management|5_2023-10-10T11-19-13.410150.parquet
  - **/details_harness|hendrycksTest-marketing|5_2023-10-10T11-19-13.410150.parquet
  - **/details_harness|hendrycksTest-medical_genetics|5_2023-10-10T11-19-13.410150.parquet
  - **/details_harness|hendrycksTest-miscellaneous|5_2023-10-10T11-19-13.410150.parquet
  - **/details_harness|hendrycksTest-moral_disputes|5_2023-10-10T11-19-13.410150.parquet
  - **/details_harness|hendrycksTest-moral_scenarios|5_2023-10-10T11-19-13.410150.parquet
  - **/details_harness|hendrycksTest-nutrition|5_2023-10-10T11-19-13.410150.parquet
  - **/details_harness|hendrycksTest-philosophy|5_2023-10-10T11-19-13.410150.parquet
  - **/details_harness|hendrycksTest-prehistory|5_2023-10-10T11-19-13.410150.parquet
  - **/details_harness|hendrycksTest-professional_accounting|5_2023-10-10T11-19-13.410150.parquet
  - **/details_harness|hendrycksTest-professional_law|5_2023-10-10T11-19-13.410150.parquet
  - **/details_harness|hendrycksTest-professional_medicine|5_2023-10-10T11-19-13.410150.parquet
  - `**/details_harness|hendrycksTest-professional

搜集汇总

数据集介绍

构建方式

该数据集源自Open LLM Leaderboard对模型mncai/Mistral-7B-OpenOrca-1k的自动化评估流程。构建过程中，系统将评估任务划分为64个独立的配置项，每个配置对应一个特定的评测任务，如ARC挑战、DROP、GSM8K等。数据由两次独立的运行产生，每次运行的结果以时间戳命名并作为独立的分片存储于各配置中，其中'train'分片始终指向最新运行的结果。此外，一个名为'results'的附加配置汇集了所有运行的综合指标，用于在排行榜上计算和展示聚合度量。

特点

该数据集的核心特色在于其精细化的任务划分与版本管理机制。通过64个配置项，用户能够针对性地访问单一评测任务的详细结果，而无需处理无关数据。每个配置内的分片设计允许追踪不同时间点的评估历史，确保结果的可追溯性与可比性。数据集以Parquet格式存储，兼顾了高效压缩与快速读取。此外，'results'配置提供了全局视角的汇总数据，便于快速评估模型在多个基准上的整体表现。

使用方法

使用该数据集时，可通过Hugging Face的datasets库加载特定配置与分片。例如，加载Winogrande任务的训练分片，只需调用load_dataset函数并指定配置名'harness_winogrande_5'及split='train'。用户亦可选择历史分片（如'2023_10_25T07_41_12.101153'）来获取特定运行的结果。对于需要综合指标的场景，可直接访问'results'配置，其中存储了所有任务的聚合分数，包括准确率、F1值及其标准误差，便于进行模型性能的横向对比分析。

背景与挑战

背景概述

在大型语言模型（LLM）蓬勃发展的浪潮中，如何公正、全面地评估模型性能成为学界与工业界共同关注的焦点。Open LLM Leaderboard由Hugging Face团队于2023年创建，旨在为开源社区提供一个标准化、透明化的模型评测平台。该数据集作为Leaderboard的衍生产物，专门记录了mncai/Mistral-7B-OpenOrca-1k模型在多项任务上的评估细节，涵盖ARC挑战赛、DROP、GSM8K、HellaSwag及涵盖57个学科的大规模多任务语言理解（MMLU）基准。通过64个配置项与多次运行的时间戳快照，该数据集不仅揭示了Mistral-7B-OpenOrca-1k在常识推理、数学问题求解与知识问答等维度的表现，更推动了LLM评测从单一指标向多维度、细粒度分析的范式转变，成为社区衡量模型进步的重要标尺。

当前挑战

当前，该数据集面临的核心挑战源于LLM评估的固有复杂性。其一，领域问题层面，如何设计能真实反映模型泛化能力而非记忆效应的评测任务，仍是一大难题——例如GSM8K上的低准确率（约12%）暗示模型在数学推理中存在系统性短板，而DROP任务中极低的精确匹配率（0.5%）则暴露出模型在复杂信息抽取与数值计算上的脆弱性。其二，构建过程中，评估结果的可靠性受限于任务配置的多样性（如few-shot样本数差异）与随机种子波动，导致跨运行结果的一致性难以保证；同时，57个MMLU子任务的细粒度记录虽提升了透明度，却大幅增加了数据管理与版本追踪的复杂度，对自动化流水线提出了更高要求。

常用场景

经典使用场景

该数据集作为Open LLM Leaderboard评测框架的核心组件，专为评估Mistral-7B-OpenOrca-1k模型在多样化自然语言理解任务上的表现而设计。其经典使用场景涵盖了一系列标准化基准测试，包括ARC挑战集、HellaSwag常识推理、MMLU多学科知识理解、GSM8K数学推理以及Winogrande指代消解等。研究者通过加载该数据集中的64个配置项，可系统性地获取模型在各项任务上的细粒度性能指标，从而实现对模型综合能力的精准刻画与横向对比。

解决学术问题

该数据集有效解决了大语言模型评估中缺乏统一、可复现基准的学术难题。传统上，不同研究团队采用各异的数据集与评测流程，导致模型性能比较存在偏差。此数据集通过标准化评测框架，为Mistral-7B-OpenOrca-1k提供了涵盖知识问答、逻辑推理、数学计算和语言理解等多维度的系统评估。其意义在于构建了透明、可追溯的评测流水线，使得模型间的性能差异可被精确归因，推动了开放科学背景下大模型评估范式的规范化与可信度提升。

衍生相关工作

该数据集衍生了一系列重要的后续工作，其中最具代表性的是基于其评测结果开展的模型性能分析与优化研究。研究者利用数据集中的结构化评估信息，深入分析了Mistral-7B-OpenOrca-1k在不同任务上的行为模式，并据此提出了针对性的数据增强与训练策略改进方案。此外，该数据集作为Open LLM Leaderboard生态的一部分，其评测框架和结果展示方式已被广泛应用于其他开源模型的评估，催生了大量关于模型能力边界、评测基准设计以及自动化评估流程的学术探讨与实践创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集