open-llm-leaderboard/details_hoskinson-center__proofGPT-v0.1-6.7B

Name: open-llm-leaderboard/details_hoskinson-center__proofGPT-v0.1-6.7B
Creator: open-llm-leaderboard
Published: 2023-10-28 17:23:55
License: 暂无描述

Hugging Face2023-10-28 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/open-llm-leaderboard/details_hoskinson-center__proofGPT-v0.1-6.7B

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是在模型hoskinson-center/proofGPT-v0.1-6.7B的评估运行期间自动创建的，用于在Open LLM Leaderboard上进行评估。数据集由64个配置组成，每个配置对应一个评估任务。数据集由2次运行创建，每次运行可以在每个配置中找到特定的分割，分割名称使用运行的时间戳。train分割始终指向最新的结果。此外，results配置存储了所有运行的聚合结果，并用于计算和显示Open LLM Leaderboard上的聚合指标。

提供机构：

open-llm-leaderboard

原始信息汇总

数据集概述

该数据集是在评估模型 hoskinson-center/proofGPT-v0.1-6.7B 在 Open LLM Leaderboard 上的运行过程中自动创建的。

数据集组成

数据集包含 64 个配置，每个配置对应一个评估任务。
数据集从 2 次运行中创建。每次运行可以在每个配置中找到特定的拆分，拆分名称使用运行的时间戳。
"train" 拆分始终指向最新的结果。
一个额外的配置 "results" 存储所有运行的聚合结果，用于计算和显示 Open LLM Leaderboard 上的聚合指标。

数据加载示例

python from datasets import load_dataset data = load_dataset("open-llm-leaderboard/details_hoskinson-center__proofGPT-v0.1-6.7B", "harness_winogrande_5", split="train")

配置详情

harness_arc_challenge_25
- 拆分：2023_10_04T06_55_11.412904
  - 路径：**/details_harness|arc:challenge|25_2023-10-04T06-55-11.412904.parquet
- 拆分：latest
  - 路径：**/details_harness|arc:challenge|25_2023-10-04T06-55-11.412904.parquet
harness_drop_3
- 拆分：2023_10_28T17_23_43.110088
  - 路径：**/details_harness|drop|3_2023-10-28T17-23-43.110088.parquet
- 拆分：latest
  - 路径：**/details_harness|drop|3_2023-10-28T17-23-43.110088.parquet
harness_gsm8k_5
- 拆分：2023_10_28T17_23_43.110088
  - 路径：**/details_harness|gsm8k|5_2023-10-28T17-23-43.110088.parquet
- 拆分：latest
  - 路径：**/details_harness|gsm8k|5_2023-10-28T17-23-43.110088.parquet
harness_hellaswag_10
- 拆分：2023_10_04T06_55_11.412904
  - 路径：**/details_harness|hellaswag|10_2023-10-04T06-55-11.412904.parquet
- 拆分：latest
  - 路径：**/details_harness|hellaswag|10_2023-10-04T06-55-11.412904.parquet
harness_hendrycksTest_5
- 拆分：2023_10_04T06_55_11.412904
  - 路径：
    - **/details_harness|hendrycksTest-abstract_algebra|5_2023-10-04T06-55-11.412904.parquet
    - **/details_harness|hendrycksTest-anatomy|5_2023-10-04T06-55-11.412904.parquet
    - **/details_harness|hendrycksTest-astronomy|5_2023-10-04T06-55-11.412904.parquet
    - **/details_harness|hendrycksTest-business_ethics|5_2023-10-04T06-55-11.412904.parquet
    - **/details_harness|hendrycksTest-clinical_knowledge|5_2023-10-04T06-55-11.412904.parquet
    - **/details_harness|hendrycksTest-college_biology|5_2023-10-04T06-55-11.412904.parquet
    - **/details_harness|hendrycksTest-college_chemistry|5_2023-10-04T06-55-11.412904.parquet
    - **/details_harness|hendrycksTest-college_computer_science|5_2023-10-04T06-55-11.412904.parquet
    - **/details_harness|hendrycksTest-college_mathematics|5_2023-10-04T06-55-11.412904.parquet
    - **/details_harness|hendrycksTest-college_medicine|5_2023-10-04T06-55-11.412904.parquet
    - **/details_harness|hendrycksTest-college_physics|5_2023-10-04T06-55-11.412904.parquet
    - **/details_harness|hendrycksTest-computer_security|5_2023-10-04T06-55-11.412904.parquet
    - **/details_harness|hendrycksTest-conceptual_physics|5_2023-10-04T06-55-11.412904.parquet
    - **/details_harness|hendrycksTest-econometrics|5_2023-10-04T06-55-11.412904.parquet
    - **/details_harness|hendrycksTest-electrical_engineering|5_2023-10-04T06-55-11.412904.parquet
    - **/details_harness|hendrycksTest-elementary_mathematics|5_2023-10-04T06-55-11.412904.parquet
    - **/details_harness|hendrycksTest-formal_logic|5_2023-10-04T06-55-11.412904.parquet
    - **/details_harness|hendrycksTest-global_facts|5_2023-10-04T06-55-11.412904.parquet
    - **/details_harness|hendrycksTest-high_school_biology|5_2023-10-04T06-55-11.412904.parquet
    - **/details_harness|hendrycksTest-high_school_chemistry|5_2023-10-04T06-55-11.412904.parquet
    - **/details_harness|hendrycksTest-high_school_computer_science|5_2023-10-04T06-55-11.412904.parquet
    - **/details_harness|hendrycksTest-high_school_european_history|5_2023-10-04T06-55-11.412904.parquet
    - **/details_harness|hendrycksTest-high_school_geography|5_2023-10-04T06-55-11.412904.parquet
    - **/details_harness|hendrycksTest-high_school_government_and_politics|5_2023-10-04T06-55-11.412904.parquet
    - **/details_harness|hendrycksTest-high_school_macroeconomics|5_2023-10-04T06-55-11.412904.parquet
    - **/details_harness|hendrycksTest-high_school_mathematics|5_2023-10-04T06-55-11.412904.parquet
    - **/details_harness|hendrycksTest-high_school_microeconomics|5_2023-10-04T06-55-11.412904.parquet
    - **/details_harness|hendrycksTest-high_school_physics|5_2023-10-04T06-55-11.412904.parquet
    - **/details_harness|hendrycksTest-high_school_psychology|5_2023-10-04T06-55-11.412904.parquet
    - **/details_harness|hendrycksTest-high_school_statistics|5_2023-10-04T06-55-11.412904.parquet
    - **/details_harness|hendrycksTest-high_school_us_history|5_2023-10-04T06-55-11.412904.parquet
    - **/details_harness|hendrycksTest-high_school_world_history|5_2023-10-04T06-55-11.412904.parquet
    - **/details_harness|hendrycksTest-human_aging|5_2023-10-04T06-55-11.412904.parquet
    - **/details_harness|hendrycksTest-human_sexuality|5_2023-10-04T06-55-11.412904.parquet
    - **/details_harness|hendrycksTest-international_law|5_2023-10-04T06-55-11.412904.parquet
    - **/details_harness|hendrycksTest-jurisprudence|5_2023-10-04T06-55-11.412904.parquet
    - **/details_harness|hendrycksTest-logical_fallacies|5_2023-10-04T06-55-11.412904.parquet
    - **/details_harness|hendrycksTest-machine_learning|5_2023-10-04T06-55-11.412904.parquet
    - **/details_harness|hendrycksTest-management|5_2023-10-04T06-55-11.412904.parquet
    - **/details_harness|hendrycksTest-marketing|5_2023-10-04T06-55-11.412904.parquet
    - **/details_harness|hendrycksTest-medical_genetics|5_2023-10-04T06-55-11.412904.parquet
    - **/details_harness|hendrycksTest-miscellaneous|5_2023-10-04T06-55-11.412904.parquet
    - **/details_harness|hendrycksTest-moral_disputes|5_2023-10-04T06-55-11.412904.parquet
    - **/details_harness|hendrycksTest-moral_scenarios|5_2023-10-04T06-55-11.412904.parquet
    - **/details_harness|hendrycksTest-nutrition|5_2023-10-04T06-55-11.412904.parquet
    - **/details_harness|hendrycksTest-philosophy|5_2023-10-04T06-55-11.412904.parquet
    - **/details_harness|hendrycksTest-prehistory|5_2023-10-04T06-55-11.412904.parquet
    - **/details_harness|hendrycksTest-professional_accounting|5_2023-10-04T06-55-11.412904.parquet
    - **/details_harness|hendrycksTest-professional_law|5_2023-10-04T06-55-11.412904.parquet
    - `**/details_harness|hendrycksTest-professional_medicine|

搜集汇总

数据集介绍

构建方式

该数据集源自Open LLM Leaderboard对hoskinson-center/proofGPT-v0.1-6.7B模型的自动化评估流程。其构建过程涉及模型在多项基准任务上的推理结果，涵盖ARC挑战、DROP、GSM8K、HellaSwag及涵盖57个学科的MMLU等。每次独立评估运行均生成对应的Parquet格式详情文件，并依据时间戳创建独立的数据分片，而“train”分片始终指向最新一次的评估结果。此外，一个名为“results”的独立配置被用于汇聚并存储所有运行的综合指标，以便在排行榜上呈现聚合后的性能数据。

使用方法

用户可通过HuggingFace的datasets库便捷地加载此数据集。例如，调用load_dataset函数并指定数据集名称“open-llm-leaderboard/details_hoskinson-center__proofGPT-v0.1-6.7B”，同时选择目标任务的配置名称（如“harness_winogrande_5”）与分片标识（如“train”或时间戳字符串），即可获取相应评估的详细记录。这种加载方式支持对单个任务或全部任务的灵活访问，便于研究者深入分析模型在特定维度上的表现或进行跨任务的综合评估。

背景与挑战

背景概述

随着大语言模型能力的迅猛发展，如何系统性地评估其在不同任务上的表现成为学界与工业界共同关注的焦点。Open LLM Leaderboard由Hugging Face团队发起，旨在为开源语言模型提供一个标准化、透明化的性能评测平台。该数据集记录了hoskinson-center团队开发的proofGPT-v0.1-6.7B模型在多项基准任务上的评估结果，涵盖ARC挑战、DROP、GSM8K、HellaSwag、WinoGrande及涵盖57个学科的MMLU测试。通过自动化的评估流程，该数据集不仅反映了模型在常识推理、数学求解、阅读理解等维度的能力，也为社区提供了可复现的评测基准，推动了开源大模型性能对比的规范化进程。

当前挑战

该数据集所反映的核心挑战在于，proofGPT-v0.1-6.7B模型在多项任务中表现欠佳，例如在GSM8K数学推理任务上准确率为0，在DROP阅读理解任务上F1值仅2.4%，揭示出当前模型在复杂推理与知识密集型任务上的显著短板。此外，构建过程中亦面临多重困难：一是如何确保评估任务覆盖的全面性与代表性，以真实反映模型的多维能力；二是评测流程的自动化与结果的可复现性，要求对每次运行的配置、时间戳与数据分片进行精细管理；三是面对异构模型与不断更新的基准集，如何维持评测标准的一致性，避免因任务难度波动或数据泄露导致的偏差。

常用场景

经典使用场景

在大规模语言模型评估的学术探索中，open-llm-leaderboard/details_hoskinson-center__proofGPT-v0.1-6.7B 数据集扮演着至关重要的基准测试角色。它专为评估 proofGPT-v0.1-6.7B 模型在多种自然语言理解与推理任务上的表现而构建，涵盖了如 ARC-Challenge、HellaSwag、Winogrande 等经典基准，以及涵盖数十个学科领域的 MMLU 测试。研究人员通过加载该数据集中不同配置下的详细评估结果，得以系统性地剖析模型在常识推理、数学问题求解、阅读理解乃至专业领域知识掌握等方面的能力边界，从而为模型性能的横向对比与纵向追踪提供严谨的数据支撑。

解决学术问题

该数据集的核心价值在于解决了大语言模型性能评估中普遍存在的标准化与可复现性难题。在学术研究领域，不同团队发布的模型往往采用差异化的评估协议与数据集版本，导致结果难以直接比较。此数据集通过统一整合 Open LLM Leaderboard 的评估框架，将 proofGPT 模型在多个任务上的细粒度结果（如准确率、F1 分数及其标准误）以结构化形式存储，使研究者能够精确复现评估流程，并基于统计显著性检验来判定模型间的实质性差异。这有力推动了模型能力的透明化度量，为后续模型改进提供了可靠的参照系。

实际应用

在实际应用层面，该数据集为工业界部署大语言模型提供了关键的决策依据。企业在选择或优化对话系统、智能客服、教育辅助等应用中的底层模型时，可依据本数据集所记录的 proofGPT 在数学推理（GSM8K）、阅读理解（DROP）等任务上的表现，来评估其是否满足特定业务场景的精度与鲁棒性需求。例如，若某项应用对数值计算准确性要求严苛，GSM8K 上零准确率的结果便是一个警示信号，指引开发者转向更适配的模型或进行针对性微调。这种基于实证的评估方式，有效降低了模型选型的试错成本。

数据集最近研究

open-llm-leaderboard/details_hoskinson-center__proofGPT-v0.1-6.7B

数据集概述

数据集组成

数据加载示例

最新结果

配置详情