five

open-llm-leaderboard/details_hoskinson-center__proofGPT-v0.1-6.7B

收藏
Hugging Face2023-10-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/open-llm-leaderboard/details_hoskinson-center__proofGPT-v0.1-6.7B
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是在模型hoskinson-center/proofGPT-v0.1-6.7B的评估运行期间自动创建的,用于在Open LLM Leaderboard上进行评估。数据集由64个配置组成,每个配置对应一个评估任务。数据集由2次运行创建,每次运行可以在每个配置中找到特定的分割,分割名称使用运行的时间戳。train分割始终指向最新的结果。此外,results配置存储了所有运行的聚合结果,并用于计算和显示Open LLM Leaderboard上的聚合指标。
提供机构:
open-llm-leaderboard
原始信息汇总

数据集概述

该数据集是在评估模型 hoskinson-center/proofGPT-v0.1-6.7BOpen LLM Leaderboard 上的运行过程中自动创建的。

数据集组成

  • 数据集包含 64 个配置,每个配置对应一个评估任务。
  • 数据集从 2 次运行中创建。每次运行可以在每个配置中找到特定的拆分,拆分名称使用运行的时间戳。
  • "train" 拆分始终指向最新的结果。
  • 一个额外的配置 "results" 存储所有运行的聚合结果,用于计算和显示 Open LLM Leaderboard 上的聚合指标。

数据加载示例

python from datasets import load_dataset data = load_dataset("open-llm-leaderboard/details_hoskinson-center__proofGPT-v0.1-6.7B", "harness_winogrande_5", split="train")

最新结果

以下是 2023-10-28T17:23:43.110088 运行的最新结果

python { "all": { "em": 0.005243288590604027, "em_stderr": 0.0007396052260777836, "f1": 0.024289010067114123, "f1_stderr": 0.0010632135721440504, "acc": 0.2557221783741121, "acc_stderr": 0.007024402099929668 }, "harness|drop|3": { "em": 0.005243288590604027, "em_stderr": 0.0007396052260777836, "f1": 0.024289010067114123, "f1_stderr": 0.0010632135721440504 }, "harness|gsm8k|5": { "acc": 0.0, "acc_stderr": 0.0 }, "harness|winogrande|5": { "acc": 0.5114443567482242, "acc_stderr": 0.014048804199859335 } }

配置详情

  • harness_arc_challenge_25

    • 拆分:2023_10_04T06_55_11.412904
      • 路径:**/details_harness|arc:challenge|25_2023-10-04T06-55-11.412904.parquet
    • 拆分:latest
      • 路径:**/details_harness|arc:challenge|25_2023-10-04T06-55-11.412904.parquet
  • harness_drop_3

    • 拆分:2023_10_28T17_23_43.110088
      • 路径:**/details_harness|drop|3_2023-10-28T17-23-43.110088.parquet
    • 拆分:latest
      • 路径:**/details_harness|drop|3_2023-10-28T17-23-43.110088.parquet
  • harness_gsm8k_5

    • 拆分:2023_10_28T17_23_43.110088
      • 路径:**/details_harness|gsm8k|5_2023-10-28T17-23-43.110088.parquet
    • 拆分:latest
      • 路径:**/details_harness|gsm8k|5_2023-10-28T17-23-43.110088.parquet
  • harness_hellaswag_10

    • 拆分:2023_10_04T06_55_11.412904
      • 路径:**/details_harness|hellaswag|10_2023-10-04T06-55-11.412904.parquet
    • 拆分:latest
      • 路径:**/details_harness|hellaswag|10_2023-10-04T06-55-11.412904.parquet
  • harness_hendrycksTest_5

    • 拆分:2023_10_04T06_55_11.412904
      • 路径:
        • **/details_harness|hendrycksTest-abstract_algebra|5_2023-10-04T06-55-11.412904.parquet
        • **/details_harness|hendrycksTest-anatomy|5_2023-10-04T06-55-11.412904.parquet
        • **/details_harness|hendrycksTest-astronomy|5_2023-10-04T06-55-11.412904.parquet
        • **/details_harness|hendrycksTest-business_ethics|5_2023-10-04T06-55-11.412904.parquet
        • **/details_harness|hendrycksTest-clinical_knowledge|5_2023-10-04T06-55-11.412904.parquet
        • **/details_harness|hendrycksTest-college_biology|5_2023-10-04T06-55-11.412904.parquet
        • **/details_harness|hendrycksTest-college_chemistry|5_2023-10-04T06-55-11.412904.parquet
        • **/details_harness|hendrycksTest-college_computer_science|5_2023-10-04T06-55-11.412904.parquet
        • **/details_harness|hendrycksTest-college_mathematics|5_2023-10-04T06-55-11.412904.parquet
        • **/details_harness|hendrycksTest-college_medicine|5_2023-10-04T06-55-11.412904.parquet
        • **/details_harness|hendrycksTest-college_physics|5_2023-10-04T06-55-11.412904.parquet
        • **/details_harness|hendrycksTest-computer_security|5_2023-10-04T06-55-11.412904.parquet
        • **/details_harness|hendrycksTest-conceptual_physics|5_2023-10-04T06-55-11.412904.parquet
        • **/details_harness|hendrycksTest-econometrics|5_2023-10-04T06-55-11.412904.parquet
        • **/details_harness|hendrycksTest-electrical_engineering|5_2023-10-04T06-55-11.412904.parquet
        • **/details_harness|hendrycksTest-elementary_mathematics|5_2023-10-04T06-55-11.412904.parquet
        • **/details_harness|hendrycksTest-formal_logic|5_2023-10-04T06-55-11.412904.parquet
        • **/details_harness|hendrycksTest-global_facts|5_2023-10-04T06-55-11.412904.parquet
        • **/details_harness|hendrycksTest-high_school_biology|5_2023-10-04T06-55-11.412904.parquet
        • **/details_harness|hendrycksTest-high_school_chemistry|5_2023-10-04T06-55-11.412904.parquet
        • **/details_harness|hendrycksTest-high_school_computer_science|5_2023-10-04T06-55-11.412904.parquet
        • **/details_harness|hendrycksTest-high_school_european_history|5_2023-10-04T06-55-11.412904.parquet
        • **/details_harness|hendrycksTest-high_school_geography|5_2023-10-04T06-55-11.412904.parquet
        • **/details_harness|hendrycksTest-high_school_government_and_politics|5_2023-10-04T06-55-11.412904.parquet
        • **/details_harness|hendrycksTest-high_school_macroeconomics|5_2023-10-04T06-55-11.412904.parquet
        • **/details_harness|hendrycksTest-high_school_mathematics|5_2023-10-04T06-55-11.412904.parquet
        • **/details_harness|hendrycksTest-high_school_microeconomics|5_2023-10-04T06-55-11.412904.parquet
        • **/details_harness|hendrycksTest-high_school_physics|5_2023-10-04T06-55-11.412904.parquet
        • **/details_harness|hendrycksTest-high_school_psychology|5_2023-10-04T06-55-11.412904.parquet
        • **/details_harness|hendrycksTest-high_school_statistics|5_2023-10-04T06-55-11.412904.parquet
        • **/details_harness|hendrycksTest-high_school_us_history|5_2023-10-04T06-55-11.412904.parquet
        • **/details_harness|hendrycksTest-high_school_world_history|5_2023-10-04T06-55-11.412904.parquet
        • **/details_harness|hendrycksTest-human_aging|5_2023-10-04T06-55-11.412904.parquet
        • **/details_harness|hendrycksTest-human_sexuality|5_2023-10-04T06-55-11.412904.parquet
        • **/details_harness|hendrycksTest-international_law|5_2023-10-04T06-55-11.412904.parquet
        • **/details_harness|hendrycksTest-jurisprudence|5_2023-10-04T06-55-11.412904.parquet
        • **/details_harness|hendrycksTest-logical_fallacies|5_2023-10-04T06-55-11.412904.parquet
        • **/details_harness|hendrycksTest-machine_learning|5_2023-10-04T06-55-11.412904.parquet
        • **/details_harness|hendrycksTest-management|5_2023-10-04T06-55-11.412904.parquet
        • **/details_harness|hendrycksTest-marketing|5_2023-10-04T06-55-11.412904.parquet
        • **/details_harness|hendrycksTest-medical_genetics|5_2023-10-04T06-55-11.412904.parquet
        • **/details_harness|hendrycksTest-miscellaneous|5_2023-10-04T06-55-11.412904.parquet
        • **/details_harness|hendrycksTest-moral_disputes|5_2023-10-04T06-55-11.412904.parquet
        • **/details_harness|hendrycksTest-moral_scenarios|5_2023-10-04T06-55-11.412904.parquet
        • **/details_harness|hendrycksTest-nutrition|5_2023-10-04T06-55-11.412904.parquet
        • **/details_harness|hendrycksTest-philosophy|5_2023-10-04T06-55-11.412904.parquet
        • **/details_harness|hendrycksTest-prehistory|5_2023-10-04T06-55-11.412904.parquet
        • **/details_harness|hendrycksTest-professional_accounting|5_2023-10-04T06-55-11.412904.parquet
        • **/details_harness|hendrycksTest-professional_law|5_2023-10-04T06-55-11.412904.parquet
        • `**/details_harness|hendrycksTest-professional_medicine|
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自Open LLM Leaderboard对hoskinson-center/proofGPT-v0.1-6.7B模型的自动化评估流程。其构建过程涉及模型在多项基准任务上的推理结果,涵盖ARC挑战、DROP、GSM8K、HellaSwag及涵盖57个学科的MMLU等。每次独立评估运行均生成对应的Parquet格式详情文件,并依据时间戳创建独立的数据分片,而“train”分片始终指向最新一次的评估结果。此外,一个名为“results”的独立配置被用于汇聚并存储所有运行的综合指标,以便在排行榜上呈现聚合后的性能数据。
使用方法
用户可通过HuggingFace的datasets库便捷地加载此数据集。例如,调用load_dataset函数并指定数据集名称“open-llm-leaderboard/details_hoskinson-center__proofGPT-v0.1-6.7B”,同时选择目标任务的配置名称(如“harness_winogrande_5”)与分片标识(如“train”或时间戳字符串),即可获取相应评估的详细记录。这种加载方式支持对单个任务或全部任务的灵活访问,便于研究者深入分析模型在特定维度上的表现或进行跨任务的综合评估。
背景与挑战
背景概述
随着大语言模型能力的迅猛发展,如何系统性地评估其在不同任务上的表现成为学界与工业界共同关注的焦点。Open LLM Leaderboard由Hugging Face团队发起,旨在为开源语言模型提供一个标准化、透明化的性能评测平台。该数据集记录了hoskinson-center团队开发的proofGPT-v0.1-6.7B模型在多项基准任务上的评估结果,涵盖ARC挑战、DROP、GSM8K、HellaSwag、WinoGrande及涵盖57个学科的MMLU测试。通过自动化的评估流程,该数据集不仅反映了模型在常识推理、数学求解、阅读理解等维度的能力,也为社区提供了可复现的评测基准,推动了开源大模型性能对比的规范化进程。
当前挑战
该数据集所反映的核心挑战在于,proofGPT-v0.1-6.7B模型在多项任务中表现欠佳,例如在GSM8K数学推理任务上准确率为0,在DROP阅读理解任务上F1值仅2.4%,揭示出当前模型在复杂推理与知识密集型任务上的显著短板。此外,构建过程中亦面临多重困难:一是如何确保评估任务覆盖的全面性与代表性,以真实反映模型的多维能力;二是评测流程的自动化与结果的可复现性,要求对每次运行的配置、时间戳与数据分片进行精细管理;三是面对异构模型与不断更新的基准集,如何维持评测标准的一致性,避免因任务难度波动或数据泄露导致的偏差。
常用场景
经典使用场景
在大规模语言模型评估的学术探索中,open-llm-leaderboard/details_hoskinson-center__proofGPT-v0.1-6.7B 数据集扮演着至关重要的基准测试角色。它专为评估 proofGPT-v0.1-6.7B 模型在多种自然语言理解与推理任务上的表现而构建,涵盖了如 ARC-Challenge、HellaSwag、Winogrande 等经典基准,以及涵盖数十个学科领域的 MMLU 测试。研究人员通过加载该数据集中不同配置下的详细评估结果,得以系统性地剖析模型在常识推理、数学问题求解、阅读理解乃至专业领域知识掌握等方面的能力边界,从而为模型性能的横向对比与纵向追踪提供严谨的数据支撑。
解决学术问题
该数据集的核心价值在于解决了大语言模型性能评估中普遍存在的标准化与可复现性难题。在学术研究领域,不同团队发布的模型往往采用差异化的评估协议与数据集版本,导致结果难以直接比较。此数据集通过统一整合 Open LLM Leaderboard 的评估框架,将 proofGPT 模型在多个任务上的细粒度结果(如准确率、F1 分数及其标准误)以结构化形式存储,使研究者能够精确复现评估流程,并基于统计显著性检验来判定模型间的实质性差异。这有力推动了模型能力的透明化度量,为后续模型改进提供了可靠的参照系。
实际应用
在实际应用层面,该数据集为工业界部署大语言模型提供了关键的决策依据。企业在选择或优化对话系统、智能客服、教育辅助等应用中的底层模型时,可依据本数据集所记录的 proofGPT 在数学推理(GSM8K)、阅读理解(DROP)等任务上的表现,来评估其是否满足特定业务场景的精度与鲁棒性需求。例如,若某项应用对数值计算准确性要求严苛,GSM8K 上零准确率的结果便是一个警示信号,指引开发者转向更适配的模型或进行针对性微调。这种基于实证的评估方式,有效降低了模型选型的试错成本。
数据集最近研究
最新研究方向
在当前大语言模型(LLM)能力评估的前沿探索中,proofGPT-v0.1-6.7B在开放LLM排行榜上的评测数据集正引发学界对模型推理与常识理解边界的深刻反思。该数据集整合了DROP、GSM8K、Winogrande等多样化任务,其中Winogrande的准确率仅略高于随机水平(51.14%),而GSM8K数学推理任务的准确率竟为零,这一悬殊表现揭示了当前6.7B参数量级模型在符号推理与数值计算上的显著瓶颈。伴随着HuggingFace社区对模型透明度与可复现性评估的日益强调,此类细粒度评测结果不仅为研究社区提供了衡量模型鲁棒性的关键基准,更推动了针对模型在复杂推理场景下失效模式的系统性诊断,为后续的领域自适应训练与架构优化指明了方向。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作