open-llm-leaderboard-old/details_automerger__Experiment28Yam-7B

Name: open-llm-leaderboard-old/details_automerger__Experiment28Yam-7B
Creator: open-llm-leaderboard-old
Published: 2024-04-06 00:02:48
License: 暂无描述

Hugging Face2024-04-06 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/open-llm-leaderboard-old/details_automerger__Experiment28Yam-7B

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是在模型automerger/Experiment28Yam-7B在Open LLM Leaderboard上进行评估时自动创建的。数据集由63个配置组成，每个配置对应一个被评估的任务。数据集的结构根据运行的时间戳进行分割，train分割始终指向最新的结果。此外，一个名为results的配置存储了所有运行的聚合结果，用于计算和显示在Open LLM Leaderboard上的聚合指标。README还提供了如何使用Hugging Face datasets库加载数据集的示例，并包含了特定运行的最新结果。

提供机构：

open-llm-leaderboard-old

原始信息汇总

数据集概述

该数据集是在模型automerger/Experiment28Yam-7B的评估运行期间自动创建的，用于Open LLM Leaderboard。

数据集组成

数据集包含63个配置，每个配置对应一个评估任务。
数据集从1次运行中创建，每次运行可以在每个配置中找到特定的分割，分割名称使用运行的时间戳。
"train"分割始终指向最新的结果。
额外的配置"results"存储所有运行的聚合结果，用于计算和显示Open LLM Leaderboard上的聚合指标。

数据加载示例

python from datasets import load_dataset data = load_dataset("open-llm-leaderboard/details_automerger__Experiment28Yam-7B", "harness_winogrande_5", split="train")

最新结果

以下是2024-04-05T23:59:57.983132的最新结果：

python { "all": { "acc": 0.6501524355257138, "acc_stderr": 0.032105621193819094, "acc_norm": 0.6493107160751739, "acc_norm_stderr": 0.0327807693064778, "mc1": 0.6266829865361077, "mc1_stderr": 0.016932370557570638, "mc2": 0.782582180310156, "mc2_stderr": 0.013594678008386197 }, "harness|arc:challenge|25": { "acc": 0.712457337883959, "acc_stderr": 0.013226719056266129, "acc_norm": 0.7261092150170648, "acc_norm_stderr": 0.013032004972989506 }, "harness|hellaswag|10": { "acc": 0.7126070503883688, "acc_stderr": 0.004516215206715357, "acc_norm": 0.8911571400119498, "acc_norm_stderr": 0.003108054563352108 }, "harness|hendrycksTest-abstract_algebra|5": { "acc": 0.32, "acc_stderr": 0.046882617226215034, "acc_norm": 0.32, "acc_norm_stderr": 0.046882617226215034 }, "harness|hendrycksTest-anatomy|5": { "acc": 0.6296296296296297, "acc_stderr": 0.041716541613545426, "acc_norm": 0.6296296296296297, "acc_norm_stderr": 0.041716541613545426 }, "harness|hendrycksTest-astronomy|5": { "acc": 0.7105263157894737, "acc_stderr": 0.03690677986137283, "acc_norm": 0.7105263157894737, "acc_norm_stderr": 0.03690677986137283 }, "harness|hendrycksTest-business_ethics|5": { "acc": 0.64, "acc_stderr": 0.04824181513244218, "acc_norm": 0.64, "acc_norm_stderr": 0.04824181513244218 }, "harness|hendrycksTest-clinical_knowledge|5": { "acc": 0.7056603773584905, "acc_stderr": 0.02804918631569525, "acc_norm": 0.7056603773584905, "acc_norm_stderr": 0.02804918631569525 }, "harness|hendrycksTest-college_biology|5": { "acc": 0.7708333333333334, "acc_stderr": 0.03514697467862388, "acc_norm": 0.7708333333333334, "acc_norm_stderr": 0.03514697467862388 }, "harness|hendrycksTest-college_chemistry|5": { "acc": 0.47, "acc_stderr": 0.050161355804659205, "acc_norm": 0.47, "acc_norm_stderr": 0.050161355804659205 }, "harness|hendrycksTest-college_computer_science|5": { "acc": 0.55, "acc_stderr": 0.05, "acc_norm": 0.55, "acc_norm_stderr": 0.05 }, "harness|hendrycksTest-college_mathematics|5": { "acc": 0.31, "acc_stderr": 0.04648231987117316, "acc_norm": 0.31, "acc_norm_stderr": 0.04648231987117316 }, "harness|hendrycksTest-college_medicine|5": { "acc": 0.6589595375722543, "acc_stderr": 0.03614665424180826, "acc_norm": 0.6589595375722543, "acc_norm_stderr": 0.03614665424180826 }, "harness|hendrycksTest-college_physics|5": { "acc": 0.37254901960784315, "acc_stderr": 0.04810840148082636, "acc_norm": 0.37254901960784315, "acc_norm_stderr": 0.04810840148082636 }, "harness|hendrycksTest-computer_security|5": { "acc": 0.75, "acc_stderr": 0.04351941398892446, "acc_norm": 0.75, "acc_norm_stderr": 0.04351941398892446 }, "harness|hendrycksTest-conceptual_physics|5": { "acc": 0.5404255319148936, "acc_stderr": 0.03257901482099835, "acc_norm": 0.5404255319148936, "acc_norm_stderr": 0.03257901482099835 }, "harness|hendrycksTest-econometrics|5": { "acc": 0.47368421052631576, "acc_stderr": 0.046970851366478626, "acc_norm": 0.47368421052631576, "acc_norm_stderr": 0.046970851366478626 }, "harness|hendrycksTest-electrical_engineering|5": { "acc": 0.5448275862068965, "acc_stderr": 0.04149886942192117, "acc_norm": 0.5448275862068965, "acc_norm_stderr": 0.04149886942192117 }, "harness|hendrycksTest-elementary_mathematics|5": { "acc": 0.42063492063492064, "acc_stderr": 0.025424835086923996, "acc_norm": 0.42063492063492064, "acc_norm_stderr": 0.025424835086923996 }, "harness|hendrycksTest-formal_logic|5": { "acc": 0.47619047619047616, "acc_stderr": 0.04467062628403273, "acc_norm": 0.47619047619047616, "acc_norm_stderr": 0.04467062628403273 }, "harness|hendrycksTest-global_facts|5": { "acc": 0.32, "acc_stderr": 0.046882617226215034, "acc_norm": 0.32, "acc_norm_stderr": 0.046882617226215034 }, "harness|hendrycksTest-high_school_biology|5": { "acc": 0.7774193548387097, "acc_stderr": 0.023664216671642518, "acc_norm": 0.7774193548387097, "acc_norm_stderr": 0.023664216671642518 }, "harness|hendrycksTest-high_school_chemistry|5": { "acc": 0.5123152709359606, "acc_stderr": 0.035169204442208966, "acc_norm": 0.5123152709359606, "acc_norm_stderr": 0.035169204442208966 }, "harness|hendrycksTest-high_school_computer_science|5": { "acc": 0.7, "acc_stderr": 0.046056618647183814, "acc_norm": 0.7, "acc_norm_stderr": 0.046056618647183814 }, "harness|hendrycksTest-high_school_european_history|5": { "acc": 0.7575757575757576, "acc_stderr": 0.03346409881055953, "acc_norm": 0.7575757575757576, "acc_norm_stderr": 0.03346409881055953 }, "harness|hendrycksTest-high_school_geography|5": { "acc": 0.8080808080808081, "acc_stderr": 0.028057791672989017, "acc_norm": 0.8080808080808081, "acc_norm_stderr": 0.028057791672989017 }, "harness|hendrycksTest-high_school_government_and_politics|5": { "acc": 0.8963730569948186, "acc_stderr": 0.021995311963644237, "acc_norm": 0.8963730569948186, "acc_norm_stderr": 0.021995311963644237 }, "harness|hendrycksTest-high_school_macroeconomics|5": { "acc": 0.6615384615384615, "acc_stderr": 0.023991500500313036, "acc_norm": 0.6615384615384615, "acc_norm_stderr": 0.023991500500313036 }, "harness|hendrycksTest-high_school_mathematics|5": { "acc": 0.32222222222222224, "acc_stderr": 0.028493465091028593, "acc_norm": 0.32222222222222224, "acc_norm_stderr": 0.028493465091028593 }, "harness|hendrycksTest-high

搜集汇总

数据集介绍

构建方式

该数据集是在Open LLM Leaderboard评估框架下，对automerger/Experiment28Yam-7B模型进行自动化评测过程中生成的结果集合。数据集由63个配置组成，每个配置对应一个评估任务，涵盖如ARC-Challenge、HellaSwag、GSM8K、Winogrande、TruthfulQA以及涵盖57个学科的MMLU（HendrycksTest）等基准测试。数据来源于单次运行，每次运行的结果以时间戳命名作为独立的分割（split），其中'train'分割始终指向最新一次的评测结果。此外，还包含一个名为'results'的额外配置，用于存储所有任务的聚合指标，这些指标被用于在Leaderboard上计算和展示模型的综合表现。

使用方法

用户可通过HuggingFace的datasets库便捷地加载该数据集。例如，使用load_dataset函数指定数据集名称'open-llm-leaderboard/details_automerger__Experiment28Yam-7B'、任务配置（如'harness_winogrande_5'）以及所需的分割（如'train'）即可获取对应任务的详细评测数据。对于需要分析模型整体表现的场景，可加载'results'配置以获取所有任务的聚合结果。数据以DataFrame形式返回，便于进行后续的统计分析与可视化工作。

背景与挑战

背景概述

在大型语言模型（LLM）能力评估领域，Open LLM Leaderboard由Hugging Face团队于2023年发起，旨在为社区提供一个标准化、透明的模型性能比较平台。该数据集记录了automerger/Experiment28Yam-7B模型的评估细节，覆盖了从常识推理（如ARC Challenge、HellaSwag）到数学推理（GSM8K）、多学科知识（MMLU）及事实一致性（TruthfulQA）等63个任务配置。通过自动化的评估流水线，该数据集不仅揭示了模型在零样本与少样本场景下的泛化能力，还推动了LLM评测范式的规范化。其影响力体现在：为研究者提供了可复现的细粒度性能基准，加速了模型迭代与社区协作，成为衡量7B参数级别模型竞争力的重要参考。

当前挑战

当前数据集面临的挑战集中于两大维度。首先，在领域问题层面，LLM评估需应对任务异构性与评分标准一致性之间的矛盾——例如MMLU中涵盖57个学科，但模型在不同子领域的表现差异悬殊（如抽象代数准确率仅32%，而高中美国政府与政治达89.6%），这要求评估框架能有效区分模型的知识广度与深度。其次，在构建过程中，自动化评估流水线面临数据污染风险（如测试集可能被预训练数据泄露）、评估配置的版本兼容性（不同任务采用不同的few-shot示例数，如ARC使用25-shot、HellaSwag为10-shot）以及结果存储的时序管理（每次运行生成独立时间戳分片，需确保最新结果的可追溯性与比较公平性）。这些挑战共同制约着评估结果的鲁棒性与跨模型可比性。

常用场景

经典使用场景

在大型语言模型评估领域，该数据集作为Open LLM Leaderboard的标准化评测记录，承载了模型automerger/Experiment28Yam-7B在63个任务配置上的细粒度性能指标。研究者可通过加载特定任务配置（如harness_winogrande_5）的分片数据，复现模型在ARC挑战集、HellaSwag、GSM8K等经典基准上的表现，进而对比不同模型的推理、常识与数学能力。其结构化存储方式支持按时间戳追溯不同运行轮次的结果，为纵向追踪模型迭代效果提供了可靠的数据基础。

解决学术问题

该数据集系统性地解决了大模型评测中结果碎片化与不可复现的学术难题。通过将单次评测的63项任务结果聚合为统一格式，它使得跨模型、跨任务的性能对比成为可能，尤其适用于分析模型在MMLU、TruthfulQA等多样化知识领域的泛化能力。研究者得以量化模型在抽象代数、医学遗传学等专业学科上的短板，揭示其知识覆盖的局限性，从而推动更均衡的预训练数据配比策略与针对性优化方法的探索。

实际应用

在实际工业场景中，该数据集为模型选型与部署决策提供了量化依据。企业可依据其在Winogrande（代词消歧）和GSM8K（数学推理）上的表现，评估模型适用于客服对话系统或教育辅导工具等具体任务的适配性。同时，评测任务的细粒度结果能够指导工程师定位模型在特定领域（如法律、医学）的可靠性缺陷，从而在医疗辅助诊断或法律文书生成等高危场景中建立风险预警机制。

数据集最近研究