open-llm-leaderboard-old/details_Technoculture__MT7Bi-wizard-3-alpha-dpo

Name: open-llm-leaderboard-old/details_Technoculture__MT7Bi-wizard-3-alpha-dpo
Creator: open-llm-leaderboard-old
Published: 2024-02-09 16:02:36
License: 暂无描述

Hugging Face2024-02-09 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/open-llm-leaderboard-old/details_Technoculture__MT7Bi-wizard-3-alpha-dpo

下载链接

链接失效反馈

官方服务：

资源简介：

数据集`Evaluation run of Technoculture/MT7Bi-wizard-3-alpha-dpo`是在模型`Technoculture/MT7Bi-wizard-3-alpha-dpo`在Open LLM Leaderboard上的评估运行中自动生成的。该数据集由63个配置组成，每个配置对应一个被评估的任务。数据集从1次运行中创建，每次运行可以在每个配置中找到，运行的时间戳作为分割的名称。此外，数据集还包含一个名为`results`的配置，用于存储所有运行的聚合结果，并在Open LLM Leaderboard上显示聚合指标。README文件还提供了如何加载数据集的具体代码示例，并展示了最新运行的结果。

提供机构：

open-llm-leaderboard-old

原始信息汇总

数据集概述

数据集简介

该数据集是在评估模型Technoculture/MT7Bi-wizard-3-alpha-dpo在Open LLM Leaderboard上的自动创建的。数据集包含63个配置，每个配置对应一个评估任务。

数据集结构

数据集由1次运行创建，每个运行可以在每个配置中找到特定的分割，分割名称使用运行的时间戳。"train"分割始终指向最新的结果。

结果配置

一个额外的配置"results"存储所有运行的聚合结果，用于计算和显示在Open LLM Leaderboard上的聚合指标。

数据加载示例

python from datasets import load_dataset data = load_dataset("open-llm-leaderboard/details_Technoculture__MT7Bi-wizard-3-alpha-dpo", "harness_winogrande_5", split="train")

配置详情

config_name: harness_arc_challenge_25
- data_files:
  - split: 2024_02_09T15_59_41.515086
    - **/details_harness|arc:challenge|25_2024-02-09T15-59-41.515086.parquet
  - split: latest
    - **/details_harness|arc:challenge|25_2024-02-09T15-59-41.515086.parquet
config_name: harness_gsm8k_5
- data_files:
  - split: 2024_02_09T15_59_41.515086
    - **/details_harness|gsm8k|5_2024-02-09T15-59-41.515086.parquet
  - split: latest
    - **/details_harness|gsm8k|5_2024-02-09T15-59-41.515086.parquet
config_name: harness_hellaswag_10
- data_files:
  - split: 2024_02_09T15_59_41.515086
    - **/details_harness|hellaswag|10_2024-02-09T15-59-41.515086.parquet
  - split: latest
    - **/details_harness|hellaswag|10_2024-02-09T15-59-41.515086.parquet
config_name: harness_hendrycksTest_5
- data_files:
  - split: 2024_02_09T15_59_41.515086
    - **/details_harness|hendrycksTest-abstract_algebra|5_2024-02-09T15-59-41.515086.parquet
    - **/details_harness|hendrycksTest-anatomy|5_2024-02-09T15-59-41.515086.parquet
    - **/details_harness|hendrycksTest-astronomy|5_2024-02-09T15-59-41.515086.parquet
    - **/details_harness|hendrycksTest-business_ethics|5_2024-02-09T15-59-41.515086.parquet
    - **/details_harness|hendrycksTest-clinical_knowledge|5_2024-02-09T15-59-41.515086.parquet
    - **/details_harness|hendrycksTest-college_biology|5_2024-02-09T15-59-41.515086.parquet
    - **/details_harness|hendrycksTest-college_chemistry|5_2024-02-09T15-59-41.515086.parquet
    - **/details_harness|hendrycksTest-college_computer_science|5_2024-02-09T15-59-41.515086.parquet
    - **/details_harness|hendrycksTest-college_mathematics|5_2024-02-09T15-59-41.515086.parquet
    - **/details_harness|hendrycksTest-college_medicine|5_2024-02-09T15-59-41.515086.parquet
    - **/details_harness|hendrycksTest-college_physics|5_2024-02-09T15-59-41.515086.parquet
    - **/details_harness|hendrycksTest-computer_security|5_2024-02-09T15-59-41.515086.parquet
    - **/details_harness|hendrycksTest-conceptual_physics|5_2024-02-09T15-59-41.515086.parquet
    - **/details_harness|hendrycksTest-econometrics|5_2024-02-09T15-59-41.515086.parquet
    - **/details_harness|hendrycksTest-electrical_engineering|5_2024-02-09T15-59-41.515086.parquet
    - **/details_harness|hendrycksTest-elementary_mathematics|5_2024-02-09T15-59-41.515086.parquet
    - **/details_harness|hendrycksTest-formal_logic|5_2024-02-09T15-59-41.515086.parquet
    - **/details_harness|hendrycksTest-global_facts|5_2024-02-09T15-59-41.515086.parquet
    - **/details_harness|hendrycksTest-high_school_biology|5_2024-02-09T15-59-41.515086.parquet
    - **/details_harness|hendrycksTest-high_school_chemistry|5_2024-02-09T15-59-41.515086.parquet
    - **/details_harness|hendrycksTest-high_school_computer_science|5_2024-02-09T15-59-41.515086.parquet
    - **/details_harness|hendrycksTest-high_school_european_history|5_2024-02-09T15-59-41.515086.parquet
    - **/details_harness|hendrycksTest-high_school_geography|5_2024-02-09T15-59-41.515086.parquet
    - **/details_harness|hendrycksTest-high_school_government_and_politics|5_2024-02-09T15-59-41.515086.parquet
    - **/details_harness|hendrycksTest-high_school_macroeconomics|5_2024-02-09T15-59-41.515086.parquet
    - **/details_harness|hendrycksTest-high_school_mathematics|5_2024-02-09T15-59-41.515086.parquet
    - **/details_harness|hendrycksTest-high_school_microeconomics|5_2024-02-09T15-59-41.515086.parquet
    - **/details_harness|hendrycksTest-high_school_physics|5_2024-02-09T15-59-41.515086.parquet
    - **/details_harness|hendrycksTest-high_school_psychology|5_2024-02-09T15-59-41.515086.parquet
    - **/details_harness|hendrycksTest-high_school_statistics|5_2024-02-09T15-59-41.515086.parquet
    - **/details_harness|hendrycksTest-high_school_us_history|5_2024-02-09T15-59-41.515086.parquet
    - **/details_harness|hendrycksTest-high_school_world_history|5_2024-02-09T15-59-41.515086.parquet
    - **/details_harness|hendrycksTest-human_aging|5_2024-02-09T15-59-41.515086.parquet
    - **/details_harness|hendrycksTest-human_sexuality|5_2024-02-09T15-59-41.515086.parquet
    - **/details_harness|hendrycksTest-international_law|5_2024-02-09T15-59-41.515086.parquet
    - **/details_harness|hendrycksTest-jurisprudence|5_2024-02-09T15-59-41.515086.parquet
    - **/details_harness|hendrycksTest-logical_fallacies|5_2024-02-09T15-59-41.515086.parquet
    - **/details_harness|hendrycksTest-machine_learning|5_2024-02-09T15-59-41.515086.parquet
    - **/details_harness|hendrycksTest-management|5_2024-02-09T15-59-41.515086.parquet
    - **/details_harness|hendrycksTest-marketing|5_2024-02-09T15-59-41.515086.parquet
    - **/details_harness|hendrycksTest-medical_genetics|5_2024-02-09T15-59-41.515086.parquet
    - **/details_harness|hendrycksTest-miscellaneous|5_2024-02-09T15-59-41.515086.parquet
    - **/details_harness|hendrycksTest-moral_disputes|5_2024-02-09T15-59-41.515086.parquet
    - **/details_harness|hendrycksTest-moral_scenarios|5_2024-02-09T15-59-41.515086.parquet
    - **/details_harness|hendrycksTest-nutrition|5_2024-02-09T15-59-41.515086.parquet
    - **/details_harness|hendrycksTest-philosophy|5_2024-02-09T15-59-41.515086.parquet
    - **/details_harness|hendrycksTest-prehistory|5_2024-02-09T15-59-41.515086.parquet
    - **/details_harness|hendrycksTest-professional_accounting|5_2024-02-09T15-59-41.515086.parquet
    - **/details_harness|hendrycksTest-professional_law|5_2

搜集汇总

数据集介绍

构建方式

在大型语言模型评估的学术实践中，Open LLM Leaderboard 作为权威的基准测试平台，为模型性能度量提供了标准化框架。该数据集正是源于对 Technoculture/MT7Bi-wizard-3-alpha-dpo 模型在 Leaderboard 上的自动化评估流程，系统性地将单次运行（时间戳为2024-02-09T15:59:41.515086）的评估结果加以结构化整合。数据集共包含63个配置项，每个配置对应一项独立的评估任务，如 ARC-Challenge、HellaSwag、GSM8K 及涵盖57个学科的 MMLU 子集。此外，增设了一个名为“results”的聚合配置，用以存储所有任务的总体指标。每个配置下的数据以 Parquet 格式存储，并通过时间戳命名分割，而“latest”分割始终指向最新运行的结果，从而实现了评估历史与当前状态的清晰分离。

特点

该数据集呈现出一系列显著的结构化特征。其核心优势在于对多任务评估结果的细粒度组织，每个配置项独立封装了特定任务（如 winogrande 或 truthfulqa）的详细得分，包括准确率（acc）及其标准误（acc_stderr）等关键统计量。数据集的版本控制机制尤为精妙，通过时间戳分割保留了历次评估的完整快照，使得研究者能够追溯模型性能的演变轨迹。同时，“results”配置提供了跨任务的聚合摘要，例如在本次运行中，模型在 winogrande 上达到65.35%的准确率，而在 GSM8K 上仅为0.99%，这种粒度与宏观视角的结合，为深入分析模型在不同认知维度上的优劣提供了坚实的数据基础。

使用方法

研究者可通过 Hugging Face Datasets 库便捷地访问该数据集。加载时需指定配置名称与分割类型，例如使用 `load_dataset("open-llm-leaderboard/details_Technoculture__MT7Bi-wizard-3-alpha-dpo", "harness_winogrande_5", split="train")` 即可获取 winogrande 任务的评估细节。配置名称遵循“任务名_样本数”的命名规范，如“harness_arc_challenge_25”代表 ARC-Challenge 任务使用25个样本。若要获取聚合结果，可直接加载“results”配置。数据以 Parquet 格式存储，确保了高效的读写性能，适用于大规模比较分析或模型改进的迭代验证。

背景与挑战

背景概述

随着大语言模型（LLM）的迅猛发展，如何系统性地评估模型在多样化任务上的表现成为学术界与工业界共同关注的焦点。Open LLM Leaderboard作为HuggingFace社区发起的一项基准评测平台，旨在通过标准化的评估流程，对各类开源语言模型进行多维度能力检验。该数据集创建于2024年2月，由HuggingFace团队主导，核心研究问题在于为模型Technoculture/MT7Bi-wizard-3-alpha-dpo提供一个透明、可复现的评测记录。数据集涵盖了63个评测配置，横跨常识推理、数学求解、医学知识、法律理解等众多领域，其影响力体现在为社区提供了模型性能的量化参照，推动了开源模型的竞争与迭代。

当前挑战

该数据集所解决的领域问题在于，大语言模型在通用能力评估中常面临任务多样性与评测一致性的矛盾，例如模型在ARC挑战集、HellaSwag、GSM8K等任务上表现差异显著，从GSM8K上仅0.99%的准确率到Winogrande上65.35%的准确率，凸显了模型在数学推理与常识推理之间的能力鸿沟。构建过程中所遇挑战包括：如何确保63个评测任务的数据格式统一且无偏，如何设计时间戳机制以追踪多次运行结果并避免数据污染，以及如何高效存储与检索大量评测细节（如每个任务的准确率与标准误差），从而支撑Leaderboard的实时更新与历史回溯。

常用场景

经典使用场景

在大型语言模型（LLM）的评估与基准测试领域，该数据集作为Open LLM Leaderboard的自动化评估产物，其经典使用场景在于为研究者提供模型在63个细分任务上的细粒度性能记录。这些任务覆盖了从常识推理（如HellaSwag、Winogrande）到数学问题求解（如GSM8K），再到涵盖多学科知识的MMLU基准测试，使得开发者能够精确剖析模型在特定能力维度上的优劣，从而指导模型优化方向。

实际应用

在实际应用中，该数据集为模型选型和部署决策提供了关键参考。企业和研究机构可依据其中涵盖的57个MMLU子任务及推理测试结果，判断模型在特定行业场景（如教育辅导、医疗咨询、法律检索）中的适配性。例如，通过分析模型在GSM8K上的极低准确率，可迅速识别其在数学推理方面的短板，从而避免将其应用于需要精确计算的金融或工程领域。

衍生相关工作

该数据集衍生了多项重要工作，其中最典型的是Open LLM Leaderboard排行榜本身，它已成为社区评估开源LLM性能的权威基准。此外，基于这些细粒度评估结果，研究者开发了模型能力图谱分析工具，用于可视化展示不同模型在知识、推理、语言理解等维度的表现差异。这些工作进一步催生了针对特定任务（如HellaSwag常识推理）的专项优化研究，以及探索评估任务数量与模型性能相关性的大规模分析，深化了对LLM能力结构的理解。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集